L’ultimo modello di intelligenza artificiale di Nvidia, Nemotron-Cascade 2, sta ribaltando le ipotesi sui modelli linguistici di grandi dimensioni (LLM). Il modello raggiunge prestazioni di alto livello in matematica, codifica e altre attività di ragionamento attivando solo 3 miliardi di parametri su un totale di 30 miliardi, una frazione delle dimensioni tipicamente richieste per questo livello di capacità. Ancora più importante, Nvidia ha reso open source la ricetta post-formazione, offrendo ai team di intelligenza artificiale aziendale un modello pratico per costruire sistemi potenti e specifici del dominio senza bisogno di ingenti risorse.
Il passaggio dalla dimensione alla strategia
Per anni, l’industria dell’intelligenza artificiale ha operato nella convinzione che modelli più grandi addestrati su più dati equivalessero a risultati migliori. Nemotron-Cascade 2 dimostra che questo non è necessariamente vero. Il vero vantaggio competitivo ora risiede nel come i modelli vengono perfezionati dopo la formazione iniziale, non solo nella loro dimensione. Questo è fondamentale perché la pre-formazione di un LLM all’avanguardia da zero può costare decine di milioni di dollari. L’approccio di Nvidia dimostra che un post-allenamento di qualità superiore può sovraperformare notevolmente anche modelli più grandi con investimenti molto inferiori.
Nemotron-Cascade 2: prestazioni senza scala
Il modello ha ottenuto la medaglia d’oro in tre competizioni notoriamente difficili: le Olimpiadi internazionali della matematica (IMO) del 2025, le Olimpiadi internazionali dell’informatica (IOI) e le finali mondiali dell’ICPC. È solo il secondo modello open-weight a raggiungere questo livello, superando DeepSeek-V3.2-Speciale, che si basa su 20 volte più parametri. La chiave? Una pipeline post-formazione attentamente progettata denominata Cascade RL e Multi-Domain On-Policy Distillation (MOPD).
Cascade RL: Formazione sequenziale per un ragionamento superiore
L’innovazione principale è Cascade RL. L’apprendimento per rinforzo tradizionale (RL) spesso porta a un dimentico catastrofico : il miglioramento delle prestazioni in un’area degrada le altre. Cascade RL risolve questo problema addestrando il modello su diversi domini in sequenza, anziché simultaneamente.
Il processo di formazione segue un ordine specifico: seguire le istruzioni, ragionamento multi-dominio (STEM, uso di strumenti), distillazione in linea con le politiche, allineamento delle preferenze umane, attività a lungo contesto, codifica e infine ingegneria del software. Questo approccio consente la regolazione personalizzata degli iperparametri per ciascun dominio, massimizzando l’efficienza e minimizzando le interferenze. Il team di Nvidia ha scoperto che iniziare con RL che segue le istruzioni e terminare con il codice RL produce i risultati migliori.
MOPD: sfruttare i checkpoint interni per la conservazione della conoscenza
Anche con l’allenamento sequenziale, qualche deriva prestazionale è inevitabile. Nvidia risolve questo problema con MOPD. La tecnica riequilibra le capacità riutilizzando i checkpoint intermedi dello stesso corso di formazione come “insegnanti”.
Questo è un grande vantaggio: l’utilizzo di checkpoint interni evita i problemi di disallineamento della distribuzione che si verificano durante la distillazione da modelli esterni. MOPD opera a livello di token, rendendolo altamente efficiente in termini di campionamento. Secondo i dati di Nvidia, recupera le prestazioni a livello di insegnante in 30 passaggi, mentre i metodi RL standard richiedono più passaggi per risultati inferiori.
Benchmark e compromessi
Nemotron-Cascade 2 eccelle nei benchmark ad alta intensità di ragionamento. Su LiveCodeBench v6, ha ottenuto un punteggio di 87,2, superando modelli come Qwen3.5-35B-A3B (74,6) e Kimi-K2.5-1T (85,0). In matematica, ha raggiunto 94,6 su HMMT febbraio 2025, eguagliando modelli più grandi. Tuttavia, il modello ha prestazioni inferiori in compiti ad alta intensità di conoscenza come MMLU-Pro e benchmark di agenti, evidenziando la necessità di ulteriore pre-formazione e perfezionamento RL. Nvidia è trasparente riguardo a questi punti deboli, il che è essenziale per l’implementazione pratica.
Implicazioni per l’intelligenza artificiale aziendale
La ricetta Nemotron-Cascade 2 fornisce informazioni utili per i team aziendali:
- Aggiunta di capacità iterativa: la formazione sequenziale del dominio consente di aggiungere nuove competenze senza ricostruire l’intera pipeline.
- Distillazione interna: MOPD elimina la necessità di costosi modelli di insegnanti esterni, consentendo la distillazione da istantanee esistenti.
- Formazione efficiente: la configurazione utilizza GRPO con una rigorosa formazione basata sulle policy e una penalità KL minima, semplificando l’implementazione.
L’aumento della densità dell’intelligence
Nemotron-Cascade 2 esemplifica la tendenza crescente verso la “densità di intelligenza”, ottenendo la massima capacità con meno parametri attivi. Ciò ha implicazioni significative sui costi di distribuzione e sulla latenza. Un modello con 3 miliardi di parametri attivi è molto più facile da servire rispetto a un modello denso da 70 miliardi di parametri.
La questione aperta è quanto bene questo approccio si generalizzi a compiti più ambigui in cui la verifica è difficile. Ma per i problemi strutturati – modellazione finanziaria, calcolo scientifico, ingegneria del software – la metodologia di Nvidia fornisce un quadro dettagliato e riproducibile per costruire sistemi di intelligenza artificiale ad alte prestazioni.
