LinkedIn substitui cinco sistemas de feed por um único LLM

6

O LinkedIn reformulou seu algoritmo de feed principal, substituindo cinco sistemas de recuperação distintos por um modelo unificado alimentado por grandes modelos de linguagem (LLMs). Esta mudança, que afeta mais de 1,3 mil milhões de utilizadores, visa fornecer conteúdos mais relevantes e personalizados e, ao mesmo tempo, reduzir os custos operacionais. A mudança sublinha uma tendência mais ampla: as principais plataformas dependem cada vez mais de LLMs para lidar com tarefas complexas de recomendação, mas fazê-lo em grande escala apresenta desafios de engenharia únicos.

O problema da fragmentação

Durante anos, o feed do LinkedIn funcionou em uma colcha de retalhos de pipelines. Cada sistema é otimizado para diferentes fatias de conteúdo: atualizações cronológicas da rede, tópicos de tendência, filtragem com base em interesses, postagens específicas do setor e recomendações baseadas em incorporação. Embora funcional, essa abordagem levou a custos crescentes de manutenção e ineficiências. Os engenheiros reconheceram que a complexidade do sistema prejudicava a sua capacidade de adaptação à evolução do comportamento do utilizador e de proporcionar experiências verdadeiramente personalizadas.

LLMs como uma solução unificada

A solução do LinkedIn envolve três camadas principais: recuperação de conteúdo, classificação e gerenciamento de computação. A empresa agora usa LLMs para compreender o contexto profissional mais profundamente, combinando os usuários com conteúdo relevante com base nos interesses declarados (cargo, habilidades, setor) e no comportamento real ao longo do tempo. Esta abordagem supera as limitações dos sistemas anteriores que lutaram para reconciliar estes sinais frequentemente conflitantes.

O redesenho inclui um modelo proprietário de Recomendação Generativa (GR). Ao contrário dos sistemas de classificação tradicionais, o GR trata o histórico de interação do usuário como uma sequência contínua – uma “história profissional” contada por meio de padrões de engajamento. Isso permite que o feed entenda os interesses de longo prazo e forneça conteúdo mais significativo.

Desafios de engenharia em escala

A implantação de LLMs na escala do LinkedIn não foi simples. Um obstáculo inicial envolveu a conversão de dados estruturados (como contagens de engajamento) em texto para processamento de LLM. A equipe descobriu que os LLMs tratavam os números como tokens não estruturados, despojando-os de sua importância. Para corrigir isso, eles implementaram intervalos percentuais com tokens especiais, permitindo ao modelo distinguir sinais de popularidade de texto comum.

Outro desafio importante foi otimizar os custos de computação. O LinkedIn desagregou o processamento de recursos vinculados à CPU a partir de inferência de modelo com uso intenso de GPU para evitar gargalos. Carregadores de dados C++ personalizados substituíram o multiprocessamento Python para reduzir a sobrecarga, e uma variante Flash Attention foi desenvolvida para otimizar o cálculo de atenção. O checkpoint paralelizado maximizou ainda mais o uso da memória da GPU.

O que isso significa

A transição do LinkedIn destaca a crescente dependência dos LLMs para sistemas de recomendação em larga escala. No entanto, também demonstra que a implementação eficaz destes modelos requer um esforço de engenharia significativo. O redesenho não envolve apenas a adoção de LLMs; trata-se de repensar como os dados são representados, como os recursos de computação são gerenciados e como o histórico do usuário é interpretado. Esta mudança sublinha um princípio fundamental: o dimensionamento de soluções de IA muitas vezes exige a resolução de classes de problemas inteiramente novas.