LinkedIn переробила основний алгоритм своєї стрічки новин, замінивши п’ять окремих систем отримання даних на єдину модель, засновану на великих мовних моделях (LLM). Цей крок, що стосується більше 1,3 мільярда користувачів, спрямований на надання більш релевантного та персоналізованого контенту при одночасному зниженні операційних витрат. Цей перехід відбиває ширшу тенденцію: великі платформи все частіше покладаються на LLM до виконання складних завдань рекомендацій, але масштабування цього пов’язані з унікальними інженерними проблемами.
Проблема Фрагментації
Протягом багатьох років стрічка новин LinkedIn працювала на основі клаптевого підходу. Кожна система оптимізована для різних фрагментів контенту – хронологічних оновлень мережі, популярних тем, фільтрації на основі інтересів, галузевих публікацій та рекомендацій на основі ембедінгів. Незважаючи на свою функціональність, цей підхід призводив до зростання витрат на обслуговування та неефективність. Інженери визнали, що складність системи перешкоджає її здатності адаптуватися до зміни поведінки користувачів і забезпечувати дійсно персоналізований досвід.
LLM як Уніфіковане Рішення
Рішення LinkedIn включає три ключові рівні: вилучення контенту, ранжування та управління обчисленнями. Компанія тепер використовує LLM для більш глибокого розуміння професійного контексту, зіставляючи користувачів із релевантним контентом на основі як заявлених інтересів (посада, навички, галузь), так і фактичної поведінки з часом. Цей підхід долає обмеження попередніх систем, які могли узгодити ці часто суперечливі сигнали.
У редизайн включено запатентовану генеративну модель рекомендацій (GR). На відміну від традиційних систем ранжирування, GR розглядає історію взаємодії з користувачем як безперервну послідовність – “професійну історію”, розказану через закономірності залучення. Це дозволяє стрічці розуміти довгострокові інтереси та надавати більш значущий контент.
Інженерні проблеми в масштабі
Розгортання LLM у масштабі LinkedIn не було простим. Однією з первісних перешкод стало перетворення структурованих даних (наприклад, лічильників залучення) на текст для обробки LLM. Команда виявила, що LLM розглядає числа як неструктуровані токени, позбавляючи їх значення. Щоб виправити це, вони реалізували відсоткові діапазони із спеціальними токенами, дозволяючи моделі розрізняти сигнали популярності та звичайний текст.
Ще одним ключовим завданням була оптимізація обчислювальних витрат. LinkedIn відокремила обчислення, пов’язані з ЦП (центральним процесором) для обробки ознак від обчислень, що вимагають графічних процесорів (GPU) для виведення моделей, щоб уникнути вузьких місць. Завантажувачі даних C++ замінили багатопроцесорність Python для зниження накладних витрат, а варіант Flash Attention був розроблений для оптимізації обчислень уваги. Паралельне створення контрольних точок також максимально збільшило використання пам’яті GPU.
Що Це означає
Перехід LinkedIn підкреслює зростання залежності від LLM для великомасштабних систем рекомендацій. Однак він також демонструє, що ефективне розгортання цих моделей потребує значних інженерних зусиль. Редизайн стосується не лише застосування LLM; мова йде про переосмислення того, як представлені дані, як управляються обчислювальні ресурси та як інтерпретується історія користувача. Цей зсув підкреслює фундаментальний принцип: масштабування рішень на основі штучного інтелекту часто потребує вирішення абсолютно нових класів проблем.






























































