Le dernier modèle d’IA de Nvidia, Nemotron-Cascade 2, bouleverse les hypothèses concernant les grands modèles de langage (LLM). Le modèle atteint des performances de haut niveau en mathématiques, en codage et dans d’autres tâches de raisonnement tout en activant seulement 3 milliards de paramètres sur un total de 30 milliards, soit une fraction de la taille généralement requise pour ce niveau de capacité. Plus important encore, Nvidia a open source la recette post-formation, donnant aux équipes d’IA d’entreprise un plan pratique pour créer des systèmes puissants et spécifiques à un domaine sans avoir besoin de ressources massives.
Le passage de la taille à la stratégie
Pendant des années, l’industrie de l’IA a fonctionné avec la conviction que des modèles plus grands formés sur plus de données entraînaient de meilleurs résultats. Nemotron-Cascade 2 prouve que ce n’est pas nécessairement vrai. Le véritable avantage concurrentiel réside désormais dans la comment les modèles sont affinés après la formation initiale, et non plus seulement dans leur taille. Ceci est crucial car la pré-formation d’un LLM de pointe à partir de zéro peut coûter des dizaines de millions de dollars. L’approche de Nvidia montre qu’une post-formation supérieure peut considérablement surpasser des modèles encore plus grands avec beaucoup moins d’investissement.
Nemotron-Cascade 2 : des performances sans échelle
Le modèle a obtenu une médaille d’or dans trois compétitions notoirement difficiles : l’Olympiade internationale de mathématiques (OMI) 2025, l’Olympiade internationale d’informatique (IOI) et la finale mondiale de l’ICPC. Ce n’est que le deuxième modèle ouvert à atteindre ce niveau, dépassant DeepSeek-V3.2-Speciale, qui s’appuie sur 20 fois plus de paramètres. La clé ? Un pipeline post-formation soigneusement conçu appelé Cascade RL et Multi-Domain On-Policy Distillation (MOPD).
Cascade RL : Entraînement séquentiel pour un raisonnement supérieur
L’innovation centrale est Cascade RL. L’apprentissage par renforcement (RL) traditionnel conduit souvent à un oubli catastrophique : l’amélioration des performances dans un domaine en dégrade les autres. Cascade RL résout ce problème en entraînant le modèle sur différents domaines séquentiellement, plutôt que simultanément.
Le processus de formation suit un ordre spécifique : suivi des instructions, raisonnement multi-domaines (STEM, utilisation d’outils), distillation sur la politique, alignement des préférences humaines, tâches à contexte long, codage et enfin ingénierie logicielle. Cette approche permet un réglage des hyperparamètres sur mesure pour chaque domaine, maximisant l’efficacité et minimisant les interférences. L’équipe Nvidia a constaté que commencer par le suivi des instructions RL et terminer par le code RL donne les meilleurs résultats.
MOPD : tirer parti des points de contrôle internes pour la rétention des connaissances
Même avec un entraînement séquentiel, une certaine dérive des performances est inévitable. Nvidia résout ce problème avec MOPD. La technique rééquilibre les capacités en réutilisant les points de contrôle intermédiaires de la même formation que les « enseignants ».
Il s’agit d’un avantage majeur : l’utilisation de points de contrôle internes évite les problèmes d’inadéquation de distribution qui surviennent lors de la distillation à partir de modèles externes. MOPD fonctionne au niveau du jeton, ce qui le rend très efficace en matière d’échantillonnage. Selon les données de Nvidia, il récupère les performances de niveau enseignant en 30 étapes, alors que les méthodes RL standard nécessitent plus d’étapes pour des résultats inférieurs.
Benchmarks et compromis
Nemotron-Cascade 2 excelle dans les tests de raisonnement intensifs. Sur LiveCodeBench v6, il a obtenu un score de 87,2, surpassant des modèles comme Qwen3.5-35B-A3B (74,6) et Kimi-K2.5-1T (85,0). En mathématiques, il a atteint 94,6 sur le HMMT de février 2025, correspondant à des modèles plus grands. Cependant, le modèle est sous-performant dans les tâches à forte intensité de connaissances telles que MMLU-Pro et les benchmarks agents, soulignant la nécessité d’une pré-formation supplémentaire et d’un raffinement RL. Nvidia est transparent sur ces faiblesses, ce qui est essentiel pour un déploiement pratique.
Implications pour l’IA d’entreprise
La recette Nemotron-Cascade 2 fournit des informations exploitables aux équipes d’entreprise :
- Ajout itératif de capacités : La formation séquentielle dans le domaine permet d’ajouter de nouvelles compétences sans reconstruire l’intégralité du pipeline.
- Distillation interne : MOPD élimine le besoin de modèles d’enseignant externes coûteux, permettant la distillation à partir d’instantanés existants.
- Formation efficace : La configuration utilise GRPO avec une formation stricte sur les politiques et une pénalité KL minimale, simplifiant le déploiement.
La montée de la densité du renseignement
Nemotron-Cascade 2 illustre la tendance croissante vers la « densité intelligente » : atteindre une capacité maximale avec moins de paramètres actifs. Cela a des implications significatives sur les coûts de déploiement et la latence. Un modèle avec 3 milliards de paramètres actifs est bien plus facile à gérer qu’un modèle dense de 70 milliards de paramètres.
La question ouverte est de savoir dans quelle mesure cette approche se généralise à des tâches plus ambiguës où la vérification est difficile. Mais pour les problèmes structurés (modélisation financière, calcul scientifique, génie logiciel), la méthodologie de Nvidia fournit un cadre détaillé et reproductible pour créer des systèmes d’IA hautes performances.
