Прогресс в ИИ Достиг Системных Границ: Ключевые Выводы из NeurIPS 2025

13

Наиболее значимые открытия на NeurIPS 2025 касались не увеличения размеров моделей, а понимания того, как улучшить существующие системы. Исследователи показали, что развитие ИИ всё больше ограничивается архитектурой, методами обучения и стратегиями оценки, а не просто сырой вычислительной мощностью. Представленные работы бросают вызов устоявшимся представлениям о масштабировании, рассуждениях и даже фундаментальным возможностям обучения с подкреплением. Вот обзор пяти ключевых выводов и их последствий для разработки ИИ в реальном мире.

Языковые Модели Сходятся: Измерение Однородности Генерации

На протяжении многих лет оценка языковых моделей (LLM) была сосредоточена на точности. Однако в задачах, требующих творчества или различных точек зрения, реальной проблемой является не правильность, а однородность. Новейшие исследования демонстрируют, что модели с разными архитектурами и от разных провайдеров всё больше сходятся к схожим, «безопасным» результатам.

Эталон “Infinity-Chat” вводит метрики для измерения как внутримодельного коллапса (самоповторения), так и межмодельной однородности (сходства между моделями). Результаты выявляют тревожную тенденцию: даже при наличии нескольких допустимых ответов, LLM склонны выдавать удивительно похожие результаты.

Почему это важно: Для компаний, полагающихся на творческие результаты, это означает, что тонкая настройка предпочтений и ограничения безопасности непреднамеренно могут снизить разнообразие, что приведёт к предсказуемым или предвзятым ИИ-помощникам. Метрики разнообразия необходимо приоритизировать наряду с традиционными мерами точности.

Внимание Не Решено: Влияние Ограниченного Внимания

Трансформерное внимание, часто рассматриваемое как решённая инженерная задача, было пересмотрено. Простое архитектурное изменение — применение сигмоидной функции, зависящей от запроса, после масштабированной точечной оценки внимания — последовательно улучшало стабильность, уменьшало «поглотители внимания» и повышало производительность в задачах с длинным контекстом в крупномасштабных тренировочных прогонах.

Функция вводит нелинейность и неявную разреженность, что может решить ранее необъяснимые проблемы с надёжностью. Это говорит о том, что некоторые из самых больших проблем LLM связаны с архитектурой, а не с алгоритмами, и могут быть решены с помощью удивительно небольших модификаций.

Масштабирование RL: Глубина, а Не Просто Данные, Имеет Значение

Общепринятая мудрость предполагает, что обучение с подкреплением (RL) трудно масштабировать без плотных наград или демонстраций. Однако новые исследования показывают, что масштабирование глубины сети — от типичных 2–5 слоёв до почти 1000 — значительно улучшает самообучение с подкреплением, обусловленное целями.

В сочетании с контрастными целями и стабильной оптимизацией это позволяет получить прирост от 2X до 50X. Для агентивных систем и автономных рабочих процессов это подчёркивает критическую роль глубины представления в обобщении и исследовании.

Диффузионные Модели: Почему Они Обобщают, а Не Запоминают

Диффузионные модели чрезмерно параметризованы, но часто хорошо обобщают. Исследователи выявили два отдельных временных масштаба обучения: быстрое улучшение качества и гораздо более медленное появление запоминания. Временной масштаб запоминания растёт линейно с размером набора данных, создавая окно, в котором модели улучшаются без переобучения.

Это переосмысливает стратегии ранней остановки и масштабирования набора данных; запоминание предсказуемо и отложено, а не неизбежно. Для диффузионного обучения увеличение размера набора данных активно задерживает переобучение, а не просто улучшает качество.

RL Улучшает Выборку, а Не Возможности Рассуждений

Пожалуй, самый трезвый вывод: обучение с подкреплением с проверяемыми наградами (RLVR) не создаёт новых способностей к рассуждениям в LLM. Вместо этого оно в основном улучшает эффективность выборки, переформируя существующие возможности, а не генерируя принципиально новые.

При больших объёмах выборки базовая модель часто уже содержит правильные траектории рассуждений. Это означает, что RL лучше понимать как механизм формирования распределения, а не как генератор базовых способностей к рассуждениям. Для расширения рассуждений RL необходимо сочетать с механизмами, такими как дистилляция учителя или архитектурные изменения.

Общая Картина: ИИ Достиг Системных Границ

Общий посыл от NeurIPS 2025 ясен: прогресс в ИИ теперь ограничен системным дизайном. Коллапс разнообразия требует новых метрик оценки, сбои внимания требуют архитектурных исправлений, масштабирование RL зависит от глубины, а запоминание связано с динамикой обучения. Конкурентное преимущество смещается от «у кого самая большая модель» к «кто понимает систему».

Этот сдвиг требует сосредоточения внимания на архитектуре, стратегиях обучения и оценке — а не только на сырой вычислительной мощности. Будущее ИИ заключается в оптимизации того, как мы строим системы, а не просто в их увеличении.