Nvidia Nemotron-Cascade 2: Пиковая Рассудительность с Минимальным Количеством Параметров

7

Новая модель искусственного интеллекта от Nvidia, Nemotron-Cascade 2, переворачивает представления о больших языковых моделях (LLM). Модель демонстрирует первоклассную производительность в математике, программировании и других задачах, требующих логического мышления, активируя всего 3 миллиарда параметров из 30 миллиардов — лишь небольшая часть от типичного размера, необходимого для достижения такого уровня возможностей. Что ещё важнее, Nvidia опубликовала рецепт постобучения, предоставив корпоративным командам, занимающимся ИИ, практический шаблон для создания мощных, специализированных систем без необходимости использования огромных ресурсов.

Сдвиг от Размера к Стратегии

На протяжении многих лет в индустрии искусственного интеллекта существовало убеждение, что большие модели, обученные на большем количестве данных, дают лучшие результаты. Nemotron-Cascade 2 доказывает, что это не всегда так. Настоящее конкурентное преимущество теперь заключается в том, как модели совершенствуются после первоначального обучения, а не просто в их размере. Это критически важно, поскольку предварительное обучение передовой LLM с нуля может стоить десятки миллионов долларов. Подход Nvidia показывает, что превосходное постобучение может значительно превзойти даже более крупные модели с гораздо меньшими инвестициями.

Nemotron-Cascade 2: Производительность без Масштаба

Модель достигла выдающихся результатов в трёх известных соревнованиях: Международной математической олимпиаде 2025 года (IMO), Международной олимпиаде по информатике (IOI) и финале командного чемпионата мира по программированию (ICPC World Finals). Она всего вторая модель с открытым весом, достигшая такого уровня, превзойдя DeepSeek-V3.2-Speciale, которая использует в 20 раз больше параметров. Ключ к успеху? Тщательно разработанный конвейер постобучения под названием Cascade RL и Multi-Domain On-Policy Distillation (MOPD).

Cascade RL: Последовательное Обучение для Превосходной Рассудительности

Основная инновация — Cascade RL. Традиционное обучение с подкреплением (RL) часто приводит к катастрофическому забыванию — улучшение производительности в одной области ухудшает другие. Cascade RL решает эту проблему, обучая модель на различных доменах последовательно, а не одновременно.

Процесс обучения следует определённому порядку: следование инструкциям, многодоменная рассудительность (STEM, использование инструментов), дистилляция на основе политики, выравнивание с предпочтениями человека, задачи с длинным контекстом, программирование и, наконец, разработка программного обеспечения. Такой подход позволяет проводить индивидуальную настройку гиперпараметров для каждого домена, максимизируя эффективность и минимизируя помехи. Команда Nvidia обнаружила, что начало с RL для следования инструкциям и завершение обучением кода даёт наилучшие результаты.

MOPD: Использование Внутренних Контрольных Точек для Сохранения Знаний

Даже при последовательном обучении неизбежно некоторое снижение производительности. Nvidia решает эту проблему с помощью MOPD. Эта техника восстанавливает возможности, повторно используя промежуточные контрольные точки из того же процесса обучения в качестве «учителей».

Это значительное преимущество: использование внутренних контрольных точек позволяет избежать проблем с несоответствием распределения, которые возникают при дистилляции от внешних моделей. MOPD работает на уровне токенов, что делает его очень эффективным с точки зрения выборки. Согласно данным Nvidia, он восстанавливает производительность на уровне учителя за 30 шагов, в то время как стандартные методы RL требуют больше шагов для получения худших результатов.

Бенчмарки и Компромиссы

Nemotron-Cascade 2 преуспевает в бенчмарках, требующих логического мышления. В LiveCodeBench v6 она набрала 87,2 балла, превзойдя модели, такие как Qwen3.5-35B-A3B (74,6) и Kimi-K2.5-1T (85,0). В математике она достигла 94,6 на HMMT February 2025, что соответствует более крупным моделям. Однако модель демонстрирует более низкие результаты в задачах, требующих обширных знаний, таких как MMLU-Pro и агентские бенчмарки, что указывает на необходимость дальнейшего предварительного обучения и совершенствования RL. Nvidia прозрачно признаёт эти недостатки, что важно для практического использования.

Последствия для Корпоративного ИИ

Рецепт Nemotron-Cascade 2 предоставляет действенные рекомендации для корпоративных команд:

  • Итеративное Добавление Возможностей: Последовательное обучение по доменам позволяет добавлять новые навыки без перестройки всего конвейера.
  • Внутренняя Дистилляция: MOPD устраняет необходимость в дорогих внешних моделях-учителях, обеспечивая дистилляцию из существующих снимков.
  • Эффективное Обучение: Настройка использует GRPO со строгим обучением на основе политики и минимальным KL-штрафом, что упрощает развёртывание.

Рост Интеллектуальной Плотности

Nemotron-Cascade 2 иллюстрирует растущую тенденцию к «интеллектуальной плотности» — достижению максимальной производительности с меньшим количеством активных параметров. Это имеет значительные последствия для затрат на развёртывание и задержки. Модель с 3 миллиардами активных параметров гораздо проще в обслуживании, чем плотная модель с 70 миллиардами параметров.

Открытым остаётся вопрос, насколько хорошо этот подход обобщается на более неоднозначные задачи, где проверка затруднена. Но для структурированных задач — финансового моделирования, научных вычислений, разработки программного обеспечения — методология Nvidia предоставляет подробный, воспроизводимый фреймворк для создания высокопроизводительных ИИ-систем.