Les développements les plus importants de NeurIPS 2025 ne concernaient pas des modèles plus gros ; il s’agissait de comprendre comment améliorer les systèmes actuels. Les chercheurs ont révélé que les progrès de l’IA sont de plus en plus limités par l’architecture, les méthodes de formation et les stratégies d’évaluation, et pas seulement par la simple capacité du modèle. Les articles présentés remettent en question des hypothèses de longue date concernant la mise à l’échelle, le raisonnement et même les capacités fondamentales de l’apprentissage par renforcement. Voici un aperçu de cinq conclusions clés et de leurs implications pour le développement de l’IA dans le monde réel.
Les LLM convergent : mesurer l’homogénéité des générations
Pendant des années, l’évaluation LLM s’est concentrée sur l’exactitude. Cependant, dans les tâches exigeant de la créativité ou des perspectives diverses, le vrai problème n’est pas l’exactitude mais l’homogénéité. Les dernières recherches démontrent que les modèles issus de différentes architectures et fournisseurs convergent de plus en plus vers des résultats similaires et « sûrs ».
Le benchmark « Infinity-Chat » introduit des métriques pour mesurer à la fois l’effondrement intra-modèle (auto-répétition) et l’homogénéité inter-modèle (similarité entre les modèles). Les résultats révèlent une tendance inquiétante : même lorsque plusieurs réponses valides existent, les LLM ont tendance à produire des réponses remarquablement similaires.
Pourquoi est-ce important : Pour les entreprises qui s’appuient sur des résultats créatifs, cela signifie que le réglage des préférences et les contraintes de sécurité peuvent par inadvertance réduire la diversité, conduisant à des assistants IA prévisibles ou biaisés. Les mesures de diversité doivent être prioritaires aux côtés des mesures de précision traditionnelles.
L’attention n’est pas résolue : l’impact de l’attention contrôlée
L’attention des transformateurs, souvent traitée comme un problème d’ingénierie réglé, a été réexaminée. Un simple changement architectural – l’application d’une porte sigmoïde dépendante des requêtes après une attention mise à l’échelle du produit scalaire – a constamment amélioré la stabilité, réduit les « puits d’attention » et amélioré les performances en contexte long dans les exécutions de formation à grande échelle.
La porte introduit une non-linéarité et une parcimonie implicite, qui peuvent résoudre des problèmes de fiabilité auparavant inexpliqués. Cela suggère que certains des plus gros problèmes du LLM sont d’ordre architectural plutôt qu’algorithmique et peuvent être résolus avec des modifications étonnamment minimes.
Mise à l’échelle RL : la profondeur, pas seulement les données, est la clé
La sagesse conventionnelle suggère que l’apprentissage par renforcement (RL) a du mal à se développer sans récompenses ou démonstrations denses. Cependant, de nouvelles recherches démontrent que la mise à l’échelle de la profondeur du réseau (de 2 à 5 couches typiques à près de 1 000) améliore considérablement la RL auto-supervisée et conditionnée par les objectifs.
Associée à des objectifs contrastés et à une optimisation stable, cette profondeur débloque des gains allant de 2X à 50X. Pour les systèmes agents et les flux de travail autonomes, cela met en évidence le rôle critique de la profondeur de représentation dans la généralisation et l’exploration.
Modèles de diffusion : pourquoi ils généralisent au lieu de mémoriser
Les modèles de diffusion sont massivement surparamétrés, mais se généralisent souvent bien. Les chercheurs ont identifié deux délais de formation distincts : une amélioration rapide de la qualité et une émergence beaucoup plus lente de la mémorisation. L’échelle de temps de mémorisation augmente linéairement avec la taille de l’ensemble de données, créant une fenêtre où les modèles s’améliorent sans surajustement.
Cela recadre les stratégies d’arrêt précoce et de mise à l’échelle des ensembles de données ; la mémorisation est prévisible et retardée, pas inévitable. Pour la formation par diffusion, l’augmentation de la taille de l’ensemble de données retarde activement le surajustement, et n’améliore pas seulement la qualité.
RL améliore la capacité d’échantillonnage et non de raisonnement
Peut-être la découverte la plus inquiétante : l’apprentissage par renforcement avec récompenses vérifiables (RLVR) ne crée pas nécessairement de nouvelles capacités de raisonnement dans les LLM. Au lieu de cela, il améliore principalement l’efficacité de l’échantillonnage, en remodelant les capacités existantes plutôt que d’en générer de fondamentalement nouvelles.
Pour les échantillons de grande taille, le modèle de base contient souvent déjà les trajectoires de raisonnement correctes. Cela signifie que RL est mieux compris comme un mécanisme de modelage de la distribution, et non comme un générateur de capacité de raisonnement de base. Pour élargir le raisonnement, la RL doit être associée à des mécanismes tels que la distillation des enseignants ou des changements architecturaux.
Vue d’ensemble : l’IA est désormais limitée par les systèmes
Le message collectif de NeurIPS 2025 est clair : les progrès de l’IA sont désormais limités par la conception des systèmes. L’effondrement de la diversité nécessite de nouvelles mesures d’évaluation, les échecs d’attention nécessitent des corrections architecturales, la mise à l’échelle RL dépend de la profondeur et la mémorisation est liée à la dynamique de formation. L’avantage concurrentiel passe de « qui possède le plus grand modèle » à « qui comprend le système ».
Ce changement nécessite de se concentrer sur l’architecture, les stratégies de formation et l’évaluation, et pas seulement sur le calcul brut. L’avenir de l’IA réside dans l’optimisation de la comment nous construisons des systèmes, et pas simplement dans leur taille.






























