KI-Fortschritte sind jetzt systembegrenzt: Wichtige Erkenntnisse aus NeurIPS 2025

12

Bei den wichtigsten Entwicklungen von NeurIPS 2025 ging es nicht um größere Modelle; Es ging ihnen darum zu verstehen, wie man aktuelle Systeme verbessern kann. Forscher haben herausgefunden, dass der KI-Fortschritt zunehmend durch Architektur, Trainingsmethoden und Bewertungsstrategien eingeschränkt wird – nicht nur durch die reine Modellkapazität. Die vorgestellten Arbeiten stellen lang gehegte Annahmen über Skalierung, Argumentation und sogar die grundlegenden Fähigkeiten des verstärkenden Lernens in Frage. Hier finden Sie eine Aufschlüsselung der fünf wichtigsten Erkenntnisse und ihrer Auswirkungen auf die KI-Entwicklung in der Praxis.

LLMs konvergieren: Messung der Homogenität in der Generation

Seit Jahren liegt der Schwerpunkt der LLM-Evaluierung auf Genauigkeit. Bei Aufgaben, die Kreativität oder unterschiedliche Perspektiven erfordern, liegt das eigentliche Problem jedoch nicht in der Korrektheit, sondern in der Homogenität. Die neuesten Forschungsergebnisse zeigen, dass Modelle verschiedener Architekturen und Anbieter zunehmend auf ähnliche, „sichere“ Ergebnisse konvergieren.

Der „Infinity-Chat“-Benchmark führt Metriken ein, um sowohl den Intra-Modell-Kollaps (Selbstwiederholung) als auch die Inter-Modell-Homogenität (Ähnlichkeit zwischen Modellen) zu messen. Die Ergebnisse zeigen einen besorgniserregenden Trend: Selbst wenn mehrere gültige Antworten vorliegen, neigen LLMs dazu, bemerkenswert ähnliche Antworten zu liefern.

Warum das wichtig ist: Für Unternehmen, die auf kreative Ergebnisse angewiesen sind, bedeutet dies, dass Präferenzanpassungen und Sicherheitsbeschränkungen die Vielfalt unbeabsichtigt verringern können, was zu vorhersehbaren oder voreingenommenen KI-Assistenten führt. Diversitätsmetriken müssen neben herkömmlichen Genauigkeitsmaßen Vorrang haben.

Aufmerksamkeit ist nicht gelöst: Die Auswirkungen der eingeschränkten Aufmerksamkeit

Die Aufmerksamkeit von Transformatoren, die oft als gelöstes technisches Problem betrachtet wird, wurde erneut untersucht. Eine einfache Architekturänderung – die Anwendung eines abfrageabhängigen Sigmoid-Gatters nach der skalierten Skalarproduktaufmerksamkeit – verbesserte durchgängig die Stabilität, reduzierte „Aufmerksamkeitssenken“ und verbesserte die Langkontextleistung bei groß angelegten Trainingsläufen.

Das Gatter führt Nichtlinearität und implizite Sparsität ein, wodurch möglicherweise bisher ungeklärte Zuverlässigkeitsprobleme behoben werden. Dies deutet darauf hin, dass einige der größten LLM-Probleme eher architektonischer als algorithmischer Natur sind und mit überraschend kleinen Modifikationen gelöst werden können.

RL-Skalierung: Tiefe, nicht nur Daten, ist der Schlüssel

Konventionelle Erkenntnisse deuten darauf hin, dass Reinforcement Learning (RL) ohne umfassende Belohnungen oder Demonstrationen nur schwer skalierbar ist. Neue Forschungsergebnisse zeigen jedoch, dass die Skalierung der Netzwerktiefe – von typischen 2–5 Schichten auf fast 1.000 – die selbstüberwachte, zielkonditionierte RL dramatisch verbessert.

Gepaart mit kontrastierenden Zielen und stabiler Optimierung ermöglicht diese Tiefe Gewinne im Bereich von 2X bis 50X. Für Agentensysteme und autonome Arbeitsabläufe unterstreicht dies die entscheidende Rolle der Darstellungstiefe bei der Generalisierung und Erkundung.

Diffusionsmodelle: Warum sie verallgemeinern statt auswendig lernen

Diffusionsmodelle sind massiv überparametrisiert, lassen sich aber oft gut verallgemeinern. Die Forscher identifizierten zwei unterschiedliche Trainingszeitskalen: eine schnelle Qualitätsverbesserung und eine viel langsamere Entwicklung des Auswendiglernens. Die Speicherzeitskala wächst linear mit der Größe des Datensatzes und schafft ein Fenster, in dem sich Modelle ohne Überanpassung verbessern.

Dadurch werden Frühstopp- und Datensatzskalierungsstrategien neu definiert. Das Auswendiglernen ist vorhersehbar und verzögert, nicht unvermeidlich. Beim Diffusionstraining verzögert die Erhöhung der Datensatzgröße aktiv die Überanpassung und verbessert nicht nur die Qualität.

RL verbessert die Sampling- und nicht die Argumentationskapazität

Die vielleicht ernüchterndste Erkenntnis: Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) schafft in LLMs nicht unbedingt neue Denkfähigkeiten. Stattdessen verbessert es in erster Linie die Sampling-Effizienz, indem es bestehende Fähigkeiten umgestaltet, anstatt grundlegend neue zu schaffen.

Bei großen Stichprobengrößen enthält das Basismodell häufig bereits die richtigen Argumentationspfade. Dies bedeutet, dass RL besser als Mechanismus zur Verteilungsgestaltung verstanden werden sollte und nicht als Generator für die Kernkompetenz des Denkens. Um das Denken zu erweitern, muss RL mit Mechanismen wie Lehrerdestillation oder Architekturänderungen gepaart werden.

Das Gesamtbild: KI ist jetzt systembegrenzt

Die kollektive Botschaft von NeurIPS 2025 ist klar: Der KI-Fortschritt wird jetzt durch das Systemdesign begrenzt. Der Zusammenbruch der Vielfalt erfordert neue Bewertungsmetriken, Aufmerksamkeitsfehler erfordern architektonische Korrekturen, die RL-Skalierung hängt von der Tiefe ab und das Auswendiglernen ist an die Trainingsdynamik gebunden. Der Wettbewerbsvorteil verlagert sich von „Wer hat das größte Modell“ hin zu „Wer versteht das System“.

Dieser Wandel erfordert einen Fokus auf Architektur, Trainingsstrategien und Bewertung – nicht nur auf Rohdatenverarbeitung. Die Zukunft der KI liegt darin, die Art und Weise zu optimieren, wie wir Systeme bauen, und nicht nur darin, sie zu vergrößern.