Nvidias Nemotron-Cascade 2: Peak Reasoning mit minimalen Parametern

16

Nvidias neuestes KI-Modell, Nemotron-Cascade 2, stellt Annahmen über große Sprachmodelle (LLMs) auf den Kopf. Das Modell erreicht Spitzenleistungen in Mathematik, Codierung und anderen Denkaufgaben und aktiviert dabei nur 3 Milliarden Parameter von insgesamt 30 Milliarden – ein Bruchteil der Größe, die normalerweise für diese Leistungsstufe erforderlich ist. Noch wichtiger ist, dass Nvidia das Post-Training-Rezept als Open-Source-Lösung bereitgestellt hat und damit KI-Teams in Unternehmen einen praktischen Entwurf für den Aufbau leistungsstarker, domänenspezifischer Systeme an die Hand gibt, ohne dass dafür große Ressourcen erforderlich sind.

Der Wandel von der Größe zur Strategie

Jahrelang ging die KI-Branche davon aus, dass größere Modelle, die auf mehr Daten trainiert wurden, zu besseren Ergebnissen führten. Nemotron-Cascade 2 beweist, dass dies nicht unbedingt wahr ist. Der eigentliche Wettbewerbsvorteil liegt nun darin, wie Modelle nach dem ersten Training verfeinert werden, und nicht nur darin, wie groß sie sind. Dies ist von entscheidender Bedeutung, da die Vorschulung eines hochmodernen LLM von Grund auf zig Millionen Dollar kosten kann. Der Ansatz von Nvidia zeigt, dass ein überlegenes Post-Training selbst größere Modelle mit weitaus geringeren Investitionen deutlich übertreffen kann.

Nemotron-Kaskade 2: Leistung ohne Maßstab

Das Modell erreichte Goldmedaillen bei drei notorisch schwierigen Wettbewerben: der Internationalen Mathematikolympiade 2025 (IMO), der Internationalen Informatikolympiade (IOI) und den ICPC-Weltfinals. Es ist erst das zweite Modell mit offenem Gewicht, das dieses Niveau erreicht, und übertrifft DeepSeek-V3.2-Speciale, das auf 20-mal mehr Parametern basiert. Der Schlüssel? Eine sorgfältig konzipierte Post-Training-Pipeline namens Cascade RL und Multi-Domain On-Policy Distillation (MOPD).

Cascade RL: Sequentielles Training für überlegenes Denken

Die Kerninnovation ist Cascade RL. Herkömmliches Reinforcement Learning (RL) führt oft zu katastrophalem Vergessen – die Verbesserung der Leistung in einem Bereich führt zu einer Verschlechterung anderer. Cascade RL löst dieses Problem, indem das Modell nacheinander und nicht gleichzeitig auf verschiedenen Domänen trainiert wird.

Der Trainingsprozess folgt einer bestimmten Reihenfolge: Befolgen von Anweisungen, domänenübergreifendes Denken (STEM, Werkzeuggebrauch), richtlinienkonforme Destillation, Ausrichtung menschlicher Präferenzen, Aufgaben mit langem Kontext, Codierung und schließlich Softwareentwicklung. Dieser Ansatz ermöglicht eine maßgeschneiderte Hyperparameter-Abstimmung für jede Domäne, wodurch die Effizienz maximiert und Interferenzen minimiert werden. Das Nvidia-Team hat herausgefunden, dass die besten Ergebnisse erzielt werden, wenn man mit Anweisung-folgendem RL beginnt und mit Code-RL endet.

MOPD: Nutzung interner Kontrollpunkte zur Wissenserhaltung

Selbst bei sequentiellem Training ist ein gewisser Leistungsabfall unvermeidlich. Nvidia geht dieses Problem mit MOPD an. Die Technik gleicht die Fähigkeiten neu aus, indem Zwischenkontrollpunkte aus demselben Trainingslauf als „Lehrer“ wiederverwendet werden.

Dies ist ein großer Vorteil: Durch die Verwendung interner Prüfpunkte werden Verteilungsinkongruenzen vermieden, die beim Destillieren aus externen Modellen auftreten. MOPD arbeitet auf Token-Ebene und ist daher äußerst stichprobeneffizient. Den Daten von Nvidia zufolge wird die Leistung auf Lehrerniveau in 30 Schritten wiederhergestellt, während Standard-RL-Methoden mehr Schritte erfordern, um schlechtere Ergebnisse zu erzielen.

Benchmarks und Kompromisse

Nemotron-Cascade 2 zeichnet sich durch begründungsintensive Benchmarks aus. Auf LiveCodeBench v6 erzielte es einen Wert von 87,2 und übertraf damit Modelle wie Qwen3.5-35B-A3B (74,6) und Kimi-K2.5-1T (85,0). In der Mathematik erreichte es am HMMT im Februar 2025 einen Wert von 94,6 und lag damit auf dem Niveau größerer Modelle. Allerdings ist das Modell bei wissensintensiven Aufgaben wie MMLU-Pro und Agenten-Benchmarks leistungsschwach, was die Notwendigkeit einer weiteren Vorschulung und RL-Verfeinerung unterstreicht. Nvidia macht diese Schwächen transparent, was für den praktischen Einsatz unerlässlich ist.

Implikationen für Unternehmens-KI

Das Nemotron-Cascade 2-Rezept bietet umsetzbare Erkenntnisse für Unternehmensteams:

  • Iterative Fähigkeitserweiterung: Sequentielles Domänentraining ermöglicht das Hinzufügen neuer Fähigkeiten, ohne die gesamte Pipeline neu aufbauen zu müssen.
  • Interne Destillation: MOPD macht teure externe Lehrermodelle überflüssig und ermöglicht die Destillation aus vorhandenen Schnappschüssen.
  • Effizientes Training: Das Setup nutzt GRPO mit streng richtlinienkonformem Training und minimaler KL-Strafe, was die Bereitstellung vereinfacht.

Der Aufstieg der Intelligenzdichte

Nemotron-Cascade 2 ist ein Beispiel für den wachsenden Trend zur „Intelligenzdichte“ – das Erreichen maximaler Leistungsfähigkeit mit weniger aktiven Parametern. Dies hat erhebliche Auswirkungen auf die Bereitstellungskosten und die Latenz. Ein Modell mit 3 Milliarden aktiven Parametern ist weitaus einfacher zu bedienen als ein dichtes Modell mit 70 Milliarden Parametern.

Die offene Frage ist, wie gut sich dieser Ansatz auf mehrdeutige Aufgaben verallgemeinern lässt, bei denen die Verifizierung schwierig ist. Aber für strukturierte Probleme – Finanzmodellierung, wissenschaftliches Rechnen, Softwareentwicklung – bietet die Methodik von Nvidia einen detaillierten, reproduzierbaren Rahmen für den Aufbau leistungsstarker KI-Systeme.