LinkedIn remplace cinq systèmes de flux par un seul LLM

5

LinkedIn a remanié son algorithme de flux de base, en remplaçant cinq systèmes de récupération distincts par un modèle unifié alimenté par de grands modèles de langage (LLM). Ce changement, qui touche plus de 1,3 milliard d’utilisateurs, vise à fournir un contenu plus pertinent et personnalisé tout en réduisant les coûts opérationnels. Cette décision souligne une tendance plus large : les grandes plates-formes s’appuient de plus en plus sur les LLM pour gérer des tâches de recommandation complexes, mais le faire à grande échelle présente des défis d’ingénierie uniques.

Le problème de la fragmentation

Pendant des années, le flux de LinkedIn fonctionnait sur une mosaïque de pipelines. Chaque système est optimisé pour différentes tranches de contenu : mises à jour chronologiques du réseau, sujets d’actualité, filtrage basé sur les centres d’intérêt, publications spécifiques à un secteur et recommandations basées sur l’intégration. Bien que fonctionnelle, cette approche a conduit à une augmentation des coûts de maintenance et à des inefficacités. Les ingénieurs ont reconnu que la complexité du système entravait sa capacité à s’adapter à l’évolution du comportement des utilisateurs et à offrir des expériences véritablement personnalisées.

LLM comme solution unifiée

La solution de LinkedIn implique trois couches clés : la récupération de contenu, le classement et la gestion du calcul. L’entreprise utilise désormais les LLM pour comprendre plus en profondeur le contexte professionnel, en associant les utilisateurs à un contenu pertinent en fonction à la fois de leurs intérêts déclarés (titre, compétences, secteur d’activité) et de leur comportement réel au fil du temps. Cette approche surmonte les limites des systèmes précédents qui avaient du mal à concilier ces signaux souvent contradictoires.

La refonte comprend un modèle propriétaire Generative Recommender (GR). Contrairement aux systèmes de classement traditionnels, GR traite l’historique des interactions des utilisateurs comme une séquence continue : une « histoire professionnelle » racontée à travers des modèles d’engagement. Cela permet au flux de comprendre les intérêts à long terme et de fournir un contenu plus significatif.

Défis d’ingénierie à grande échelle

Le déploiement de LLM à l’échelle de LinkedIn n’a pas été simple. L’un des premiers obstacles consistait à convertir des données structurées (comme le nombre d’engagements) en texte pour le traitement LLM. L’équipe a découvert que les LLM traitaient les nombres comme des jetons non structurés, les privant ainsi de leur signification. Pour résoudre ce problème, ils ont implémenté des compartiments centiles avec des jetons spéciaux, permettant au modèle de distinguer les signaux de popularité du texte ordinaire.

Un autre défi majeur consistait à optimiser les coûts de calcul. LinkedIn a désagrégé le traitement des fonctionnalités liées au processeur à partir de l’inférence de modèle gourmande en GPU pour éviter les goulots d’étranglement. Des chargeurs de données C++ personnalisés ont remplacé le multitraitement Python pour réduire les frais généraux, et une variante Flash Attention a été développée pour optimiser le calcul de l’attention. Les points de contrôle parallélisés ont encore maximisé l’utilisation de la mémoire GPU.

Ce que cela signifie

La transition de LinkedIn met en évidence le recours croissant aux LLM pour les systèmes de recommandation à grande échelle. Cependant, cela démontre également que le déploiement efficace de ces modèles nécessite un effort d’ingénierie important. La refonte ne consiste pas seulement à adopter des LLM ; il s’agit de repenser la façon dont les données sont représentées, la façon dont les ressources de calcul sont gérées et la façon dont l’historique des utilisateurs est interprété. Ce changement met en évidence un principe fondamental : la mise à l’échelle des solutions d’IA nécessite souvent de résoudre des classes de problèmes entièrement nouvelles.