Nemotron-Cascade 2 de Nvidia: razonamiento máximo con parámetros mínimos

10

El último modelo de inteligencia artificial de Nvidia, Nemotron-Cascade 2, está cambiando las suposiciones sobre los modelos de lenguajes grandes (LLM). El modelo logra un rendimiento de primer nivel en matemáticas, codificación y otras tareas de razonamiento al tiempo que activa solo 3 mil millones de parámetros de un total de 30 mil millones, una fracción del tamaño que normalmente se requiere para este nivel de capacidad. Más importante aún, Nvidia ha abierto la receta posterior a la capacitación, brindando a los equipos de IA empresarial un modelo práctico para construir sistemas potentes y específicos de dominio sin necesidad de recursos masivos.

El cambio del tamaño a la estrategia

Durante años, la industria de la IA operó bajo la creencia de que modelos más grandes entrenados con más datos equivalían a mejores resultados. Nemotron-Cascade 2 demuestra que esto no es necesariamente cierto. La verdadera ventaja competitiva ahora radica en cómo se refinan los modelos después del entrenamiento inicial, no solo en su tamaño. Esto es crucial porque la formación previa de un LLM de vanguardia desde cero puede costar decenas de millones de dólares. El enfoque de Nvidia muestra que un post-entrenamiento superior puede superar dramáticamente a modelos aún más grandes con mucha menos inversión.

Nemotron-Cascade 2: Rendimiento sin escala

El modelo logró una medalla de oro en tres competencias notoriamente difíciles: la Olimpiada Internacional de Matemáticas (IMO) de 2025, la Olimpiada Internacional de Informática (IOI) y las Finales Mundiales del ICPC. Es sólo el segundo modelo abierto que alcanza este nivel, superando a DeepSeek-V3.2-Speciale, que se basa en 20 veces más parámetros. ¿La clave? Un proceso posterior a la capacitación cuidadosamente diseñado llamado Cascade RL y Multi-Domain On-Policy Distillation (MOPD).

Cascade RL: entrenamiento secuencial para un razonamiento superior

La principal innovación es Cascade RL. El aprendizaje por refuerzo (RL) tradicional a menudo conduce a olvidos catastróficos : mejorar el desempeño en un área degrada otras. Cascade RL resuelve esto entrenando el modelo en diferentes dominios secuencialmente, en lugar de simultáneamente.

El proceso de capacitación sigue un orden específico: seguimiento de instrucciones, razonamiento multidominio (STEM, uso de herramientas), destilación de políticas, alineación de preferencias humanas, tareas de contexto largo, codificación y, finalmente, ingeniería de software. Este enfoque permite un ajuste de hiperparámetros personalizado para cada dominio, maximizando la eficiencia y minimizando la interferencia. El equipo de Nvidia descubrió que comenzar con RL que sigue instrucciones y terminar con código RL produce los mejores resultados.

MOPD: Aprovechamiento de los puntos de control internos para la retención del conocimiento

Incluso con el entrenamiento secuencial, es inevitable cierta variación en el rendimiento. Nvidia soluciona esto con MOPD. La técnica reequilibra las capacidades al reutilizar puntos de control intermedios del mismo entrenamiento como “maestros”.

Esta es una gran ventaja: el uso de puntos de control internos evita problemas de desajuste de distribución que surgen al destilar de modelos externos. MOPD opera a nivel de token, lo que lo hace altamente eficiente en cuanto a muestras. Según los datos de Nvidia, recupera el rendimiento a nivel de profesor en 30 pasos, mientras que los métodos RL estándar requieren más pasos para obtener resultados inferiores.

Puntos de referencia y compensaciones

Nemotron-Cascade 2 sobresale en pruebas comparativas de razonamiento intensivo. En LiveCodeBench v6, obtuvo una puntuación de 87,2, superando a modelos como Qwen3.5-35B-A3B (74,6) y Kimi-K2.5-1T (85,0). En matemáticas, alcanzó 94,6 en el HMMT de febrero de 2025, igualando a modelos más grandes. Sin embargo, el modelo tiene un rendimiento inferior en tareas intensivas en conocimiento como MMLU-Pro y puntos de referencia agentes, lo que destaca la necesidad de una mayor capacitación previa y refinamiento de RL. Nvidia es transparente sobre estas debilidades, lo cual es esencial para la implementación práctica.

Implicaciones para la IA empresarial

La receta Nemotron-Cascade 2 proporciona información útil para los equipos empresariales:

  • Adición de capacidad iterativa: La capacitación de dominio secuencial permite agregar nuevas habilidades sin reconstruir todo el proceso.
  • Destilación interna: MOPD elimina la necesidad de costosos modelos de docentes externos, lo que permite la destilación a partir de instantáneas existentes.
  • Capacitación eficiente: La configuración utiliza GRPO con una capacitación estricta sobre políticas y una penalización mínima de KL, lo que simplifica la implementación.

El aumento de la densidad de la inteligencia

Nemotron-Cascade 2 ejemplifica la creciente tendencia hacia la “densidad de inteligencia”: lograr la máxima capacidad con menos parámetros activos. Esto tiene implicaciones importantes para los costos de implementación y la latencia. Un modelo con 3 mil millones de parámetros activos es mucho más fácil de manejar que un modelo denso de 70 mil millones de parámetros.

La pregunta abierta es qué tan bien se generaliza este enfoque a tareas más ambiguas donde la verificación es difícil. Pero para problemas estructurados (modelos financieros, computación científica, ingeniería de software), la metodología de Nvidia proporciona un marco detallado y reproducible para construir sistemas de IA de alto rendimiento.