Nemotron-Cascade 2 da Nvidia: raciocínio de pico com parâmetros mínimos

6

O mais recente modelo de IA da Nvidia, Nemotron-Cascade 2, está mudando as suposições sobre grandes modelos de linguagem (LLMs). O modelo atinge desempenho de alto nível em tarefas de matemática, codificação e outras tarefas de raciocínio, ao mesmo tempo em que ativa apenas 3 bilhões de parâmetros de um total de 30 bilhões – uma fração do tamanho normalmente necessário para esse nível de capacidade. Mais importante ainda, a Nvidia abriu o código-fonte da receita pós-treinamento, dando às equipes corporativas de IA um plano prático para construir sistemas poderosos e específicos de domínio sem a necessidade de recursos massivos.

A mudança do tamanho para a estratégia

Durante anos, a indústria de IA funcionou sob a crença de que modelos maiores treinados com mais dados equivaleriam a melhores resultados. Nemotron-Cascade 2 prova que isso não é necessariamente verdade. A verdadeira vantagem competitiva agora reside em como os modelos são refinados após o treinamento inicial, e não apenas em seu tamanho. Isso é crucial porque o pré-treinamento de um LLM de ponta do zero pode custar dezenas de milhões de dólares. A abordagem da Nvidia mostra que o pós-treinamento superior pode superar dramaticamente modelos ainda maiores com muito menos investimento.

Nemotron-Cascade 2: Desempenho sem escala

O modelo alcançou o desempenho da medalha de ouro em três competições notoriamente difíceis: a Olimpíada Internacional de Matemática (IMO) de 2025, a Olimpíada Internacional de Informática (IOI) e as Finais Mundiais do ICPC. É apenas o segundo modelo aberto a atingir esse nível, superando o DeepSeek-V3.2-Speciale, que depende de 20 vezes mais parâmetros. A chave? Um pipeline pós-treinamento cuidadosamente projetado chamado Cascade RL e Multi-Domain On-Policy Distillation (MOPD).

Cascade RL: Treinamento Sequencial para Raciocínio Superior

A principal inovação é Cascade RL. A aprendizagem por reforço tradicional (RL) muitas vezes leva ao esquecimento catastrófico – melhorar o desempenho em uma área degrada outras. O Cascade RL resolve isso treinando o modelo em diferentes domínios sequencialmente, em vez de simultaneamente.

O processo de treinamento segue uma ordem específica: seguimento de instruções, raciocínio multidomínio (STEM, uso de ferramentas), destilação dentro da política, alinhamento de preferências humanas, tarefas de longo contexto, codificação e, finalmente, engenharia de software. Essa abordagem permite o ajuste personalizado de hiperparâmetros para cada domínio, maximizando a eficiência e minimizando a interferência. A equipe da Nvidia descobriu que começar com RL seguindo instruções e terminar com código RL produz os melhores resultados.

MOPD: aproveitando pontos de verificação internos para retenção de conhecimento

Mesmo com treinamento sequencial, algum desvio de desempenho é inevitável. A Nvidia resolve isso com MOPD. A técnica reequilibra as capacidades reutilizando pontos de verificação intermediários da mesma execução de treinamento dos “professores”.

Esta é uma grande vantagem: o uso de pontos de verificação internos evita problemas de incompatibilidade de distribuição que surgem ao destilar modelos externos. O MOPD opera no nível do token, tornando-o altamente eficiente em termos de amostragem. De acordo com dados da Nvidia, ele recupera o desempenho do professor em 30 etapas, enquanto os métodos RL padrão exigem mais etapas para resultados inferiores.

Benchmarks e compensações

O Nemotron-Cascade 2 é excelente em benchmarks de raciocínio intensivo. No LiveCodeBench v6, obteve 87,2, superando modelos como Qwen3.5-35B-A3B (74,6) e Kimi-K2.5-1T (85,0). Em matemática, alcançou 94,6 no HMMT de fevereiro de 2025, igualando modelos maiores. No entanto, o modelo apresenta desempenho inferior em tarefas intensivas em conhecimento, como MMLU-Pro e benchmarks de agência, destacando a necessidade de maior pré-treinamento e refinamento de RL. A Nvidia é transparente sobre essas fraquezas, o que é essencial para uma implantação prática.

Implicações para IA empresarial

A receita Nemotron-Cascade 2 fornece insights acionáveis para equipes empresariais:

  • Adição de capacidade iterativa: O treinamento de domínio sequencial permite adicionar novas habilidades sem reconstruir todo o pipeline.
  • Destilação Interna: O MOPD elimina a necessidade de modelos de professores externos caros, permitindo a destilação de instantâneos existentes.
  • Treinamento eficiente: A configuração utiliza GRPO com treinamento rigoroso de acordo com a política e penalidade mínima de KL, simplificando a implantação.

A ascensão da densidade de inteligência

Nemotron-Cascade 2 exemplifica a tendência crescente em direção à “densidade de inteligência” – alcançando capacidade máxima com menos parâmetros ativos. Isto tem implicações significativas nos custos de implantação e na latência. Um modelo com 3 bilhões de parâmetros ativos é muito mais fácil de servir do que um modelo denso de 70 bilhões de parâmetros.

A questão em aberto é até que ponto esta abordagem se generaliza para tarefas mais ambíguas onde a verificação é difícil. Mas para problemas estruturados – modelagem financeira, computação científica, engenharia de software – a metodologia da Nvidia fornece uma estrutura detalhada e reproduzível para a construção de sistemas de IA de alto desempenho.