LinkedIn sostituisce cinque sistemi di alimentazione con un unico LLM

9

LinkedIn ha rivisto il suo algoritmo di feed principale, sostituendo cinque distinti sistemi di recupero con un modello unificato basato su grandi modelli linguistici (LLM). Questo cambiamento, che interessa oltre 1,3 miliardi di utenti, mira a fornire contenuti più pertinenti e personalizzati riducendo al contempo i costi operativi. La mossa sottolinea una tendenza più ampia: le principali piattaforme si affidano sempre più ai LLM per gestire compiti di raccomandazione complessi, ma farlo su larga scala presenta sfide ingegneristiche uniche.

Il problema della frammentazione

Per anni, il feed di LinkedIn ha funzionato su un mosaico di condutture. Ciascun sistema è ottimizzato per diverse porzioni di contenuto: aggiornamenti cronologici della rete, argomenti di tendenza, filtri basati sugli interessi, post specifici del settore e consigli basati sull’incorporamento. Sebbene funzionale, questo approccio ha portato a costi di manutenzione e inefficienze crescenti. Gli ingegneri hanno riconosciuto che la complessità del sistema ostacolava la sua capacità di adattarsi all’evoluzione del comportamento degli utenti e di offrire esperienze veramente personalizzate.

LLM come soluzione unificata

La soluzione di LinkedIn prevede tre livelli chiave: recupero dei contenuti, classificazione e gestione del calcolo. L’azienda ora utilizza i LLM per comprendere più a fondo il contesto professionale, abbinando gli utenti a contenuti pertinenti in base sia agli interessi dichiarati (titolo, competenze, settore) sia al comportamento effettivo nel tempo. Questo approccio supera i limiti dei sistemi precedenti che faticavano a conciliare questi segnali spesso contrastanti.

La riprogettazione include un modello proprietario Generative Recommender (GR). A differenza dei sistemi di classificazione tradizionali, GR tratta la cronologia delle interazioni dell’utente come una sequenza continua, una “storia professionale” raccontata attraverso modelli di coinvolgimento. Ciò consente al feed di comprendere gli interessi a lungo termine e di fornire contenuti più significativi.

Sfide ingegneristiche su larga scala

L’implementazione di LLM su scala di LinkedIn non è stata semplice. Un ostacolo iniziale riguardava la conversione dei dati strutturati (come i conteggi del coinvolgimento) in testo per l’elaborazione LLM. Il team ha scoperto che i LLM trattavano i numeri come token non strutturati, privandoli del loro significato. Per risolvere questo problema, hanno implementato segmenti percentili con token speciali, consentendo al modello di distinguere i segnali di popolarità dal testo normale.

Un’altra sfida chiave è stata l’ottimizzazione dei costi di elaborazione. LinkedIn ha disaggregato l’elaborazione delle funzionalità legate alla CPU dall’inferenza del modello con uso intensivo della GPU per evitare colli di bottiglia. I caricatori dati C++ personalizzati hanno sostituito il multiprocessing Python per ridurre il sovraccarico ed è stata sviluppata una variante Flash Attention per ottimizzare il calcolo dell’attenzione. Il checkpoint parallelizzato ha ulteriormente massimizzato l’utilizzo della memoria della GPU.

Cosa significa

La transizione di LinkedIn evidenzia la crescente dipendenza dai LLM per i sistemi di raccomandazione su larga scala. Tuttavia, dimostra anche che l’implementazione efficace di questi modelli richiede un notevole impegno ingegneristico. La riprogettazione non riguarda solo l’adozione di LLM; si tratta di ripensare il modo in cui vengono rappresentati i dati, come vengono gestite le risorse di elaborazione e come viene interpretata la cronologia degli utenti. Questo cambiamento sottolinea un principio fondamentale: la scalabilità delle soluzioni di intelligenza artificiale spesso richiede la risoluzione di classi di problemi completamente nuove.