Nvidia’s Nemotron-Cascade 2: piekredeneren met minimale parameters

19

Nvidia’s nieuwste AI-model, Nemotron-Cascade 2, zet aannames over grote taalmodellen (LLM’s) op hun kop. Het model levert topprestaties op het gebied van wiskunde, coderen en andere redeneertaken, terwijl het slechts 3 miljard parameters activeert op een totaal van 30 miljard – een fractie van de omvang die normaal gesproken vereist is voor dit vaardigheidsniveau. Belangrijker nog is dat Nvidia het recept voor post-training heeft open source, waardoor AI-teams van ondernemingen een praktische blauwdruk krijgen voor het bouwen van krachtige, domeinspecifieke systemen zonder dat daarvoor enorme middelen nodig zijn.

De verschuiving van omvang naar strategie

Jarenlang opereerde de AI-industrie in de overtuiging dat grotere modellen die op meer data waren getraind betere resultaten opleverden. Nemotron-Cascade 2 bewijst dat dit niet noodzakelijk waar is. Het echte concurrentievoordeel ligt nu in hoe modellen worden verfijnd na de initiële training, niet alleen in hoe groot ze zijn. Dit is van cruciaal belang omdat het helemaal opnieuw opleiden van een geavanceerde LLM tientallen miljoenen dollars kan kosten. De aanpak van Nvidia laat zien dat superieure post-training aanzienlijk beter kan presteren dan zelfs grotere modellen met veel minder investeringen.

Nemotron-Cascade 2: Prestaties zonder schaal

Het model behaalde gouden medailleprestaties op drie notoir moeilijke competities: de Internationale Wiskundeolympiade (IMO) van 2025, de Internationale Olympiade in Informatica (IOI) en de ICPC Wereldfinale. Het is pas het tweede model met open gewicht dat dit niveau bereikt en overtreft DeepSeek-V3.2-Speciale, dat op 20 keer meer parameters vertrouwt. De sleutel? Een zorgvuldig ontworpen post-training pijplijn genaamd Cascade RL en Multi-Domain On-Policy Distillation (MOPD).

Cascade RL: Sequentiële training voor superieur redeneren

De kerninnovatie is Cascade RL. Traditioneel versterkend leren (RL) leidt vaak tot catastrofaal vergeten : het verbeteren van de prestaties op het ene gebied verslechtert andere. Cascade RL lost dit op door het model opeenvolgend op verschillende domeinen te trainen, in plaats van tegelijkertijd.

Het trainingsproces volgt een specifieke volgorde: het volgen van instructies, redeneren over meerdere domeinen (STEM, gebruik van tools), destillatie van beleid, afstemming van menselijke voorkeuren, taken met een lange context, codering en ten slotte software-engineering. Deze aanpak maakt op maat gemaakte afstemming van hyperparameters voor elk domein mogelijk, waardoor de efficiëntie wordt gemaximaliseerd en interferentie wordt geminimaliseerd. Het Nvidia-team ontdekte dat beginnen met het volgen van instructies RL en eindigen met code RL de beste resultaten oplevert.

MOPD: gebruik maken van interne controlepunten voor kennisbehoud

Zelfs bij opeenvolgende training is enige prestatieafwijking onvermijdelijk. Nvidia pakt dit aan met MOPD. De techniek brengt de mogelijkheden opnieuw in evenwicht door tussentijdse controlepunten uit dezelfde trainingssessie als ‘leraren’ te hergebruiken.

Dit is een groot voordeel: het gebruik van interne controlepunten vermijdt problemen met de distributiemismatch die optreden bij het distilleren uit externe modellen. MOPD werkt op tokenniveau, waardoor het zeer steekproefefficiënt is. Volgens de gegevens van Nvidia herstelt het de prestaties op lerarenniveau in 30 stappen, terwijl standaard RL-methoden meer stappen vereisen voor inferieure resultaten.

Benchmarks en afwegingen

Nemotron-Cascade 2 blinkt uit in redeneerintensieve benchmarks. Op LiveCodeBench v6 scoorde het 87,2, waarmee het beter presteerde dan modellen als Qwen3.5-35B-A3B (74,6) en Kimi-K2.5-1T (85,0). In wiskunde behaalde het 94,6 op HMMT februari 2025, wat overeenkomt met grotere modellen. Het model presteert echter ondermaats bij kennisintensieve taken zoals MMLU-Pro en agentische benchmarks, wat de noodzaak van verdere voortraining en RL-verfijning benadrukt. Nvidia is transparant over deze zwakke punten, wat essentieel is voor de praktische implementatie.

Implicaties voor zakelijke AI

Het Nemotron-Cascade 2-recept biedt bruikbare inzichten voor bedrijfsteams:

  • Toevoeging van iteratieve mogelijkheden: Sequentiële domeintraining maakt het toevoegen van nieuwe vaardigheden mogelijk zonder de hele pijplijn opnieuw op te bouwen.
  • Interne distillatie: MOPD elimineert de noodzaak voor dure externe docentenmodellen, waardoor distillatie uit bestaande snapshots mogelijk is.
  • Efficiënte training: De installatie maakt gebruik van GRPO met strikte beleidstraining en minimale KL-straf, waardoor de implementatie wordt vereenvoudigd.

De opkomst van intelligentiedichtheid

Nemotron-Cascade 2 is een voorbeeld van de groeiende trend naar ‘intelligentiedichtheid’: het bereiken van maximale capaciteit met minder actieve parameters. Dit heeft aanzienlijke gevolgen voor de implementatiekosten en latentie. Een model met 3 miljard actieve parameters is veel gemakkelijker te bedienen dan een compact model met 70 miljard parameters.

De open vraag is hoe goed deze aanpak generaliseert naar meer dubbelzinnige taken waarbij verificatie moeilijk is. Maar voor gestructureerde problemen – financiële modellering, wetenschappelijk computergebruik, software-engineering – biedt de methodologie van Nvidia een gedetailleerd, reproduceerbaar raamwerk voor het bouwen van hoogwaardige AI-systemen.