I progressi nell’intelligenza artificiale sono ora limitati al sistema: punti chiave di NeurIPS 2025

3

Gli sviluppi più significativi di NeurIPS 2025 non riguardavano modelli più grandi; riguardavano la comprensione di come migliorare i sistemi attuali. I ricercatori hanno rivelato che il progresso dell’intelligenza artificiale è sempre più limitato dall’architettura, dai metodi di formazione e dalle strategie di valutazione, non solo dalla pura capacità del modello. I documenti presentati mettono in discussione le ipotesi di lunga data sulla scalabilità, sul ragionamento e persino sulle capacità fondamentali dell’apprendimento per rinforzo. Ecco una ripartizione di cinque risultati chiave e delle loro implicazioni per lo sviluppo dell’IA nel mondo reale.

Gli LLM stanno convergendo: misurare l’omogeneità nella generazione

Per anni, la valutazione LLM si è concentrata sull’accuratezza. Tuttavia, nei compiti che richiedono creatività o prospettive diverse, il vero problema non è la correttezza ma l’omogeneità. Le ricerche più recenti dimostrano che i modelli di diverse architetture e fornitori convergono sempre più su risultati simili e “sicuri”.

Il benchmark “Infinity-Chat” introduce parametri per misurare sia il collasso intra-modello (auto-ripetizione) che l’omogeneità inter-modello (somiglianza tra modelli). I risultati rivelano una tendenza preoccupante: anche quando esistono più risposte valide, gli LLM tendono a produrre risposte notevolmente simili.

Perché è importante: Per le aziende che fanno affidamento su risultati creativi, ciò significa che la regolazione delle preferenze e i vincoli di sicurezza possono inavvertitamente ridurre la diversità, portando ad assistenti IA prevedibili o distorti. È necessario dare la priorità alle metriche della diversità rispetto alle tradizionali misure di accuratezza.

L’attenzione non è risolta: l’impatto dell’attenzione controllata

L’attenzione al trasformatore, spesso trattata come un problema ingegneristico risolto, è stata riesaminata. Una semplice modifica dell’architettura, ovvero l’applicazione di un cancello sigmoide dipendente dalla query dopo l’attenzione del prodotto scalare scalato, ha migliorato costantemente la stabilità, ridotto i “pozzi di attenzione” e migliorato le prestazioni a lungo contesto nelle esecuzioni di training su larga scala.

Il gate introduce non linearità e scarsità implicita, che possono risolvere problemi di affidabilità precedentemente inspiegabili. Ciò suggerisce che alcuni dei maggiori problemi LLM sono architettonici piuttosto che algoritmici e possono essere risolti con modifiche sorprendentemente piccole.

Scaling RL: la chiave è la profondità, non solo i dati

La saggezza convenzionale suggerisce che l’apprendimento per rinforzo (RL) fatica a crescere senza ricompense o dimostrazioni dense. Tuttavia, una nuova ricerca dimostra che il ridimensionamento della profondità della rete, dai tipici livelli 2-5 a quasi 1.000, migliora notevolmente il RL auto-supervisionato e condizionato dagli obiettivi.

Abbinata a obiettivi contrastivi e ottimizzazione stabile, questa profondità sblocca guadagni che vanno da 2X a 50X. Per i sistemi ad agenti e i flussi di lavoro autonomi, ciò evidenzia il ruolo critico della profondità della rappresentazione nella generalizzazione e nell’esplorazione.

Modelli di diffusione: perché generalizzano invece di memorizzare

I modelli di diffusione sono enormemente sovraparametrizzati, ma spesso si generalizzano bene. I ricercatori hanno identificato due tempi di formazione distinti: un rapido miglioramento della qualità e un’emergenza della memorizzazione molto più lenta. La scala temporale di memorizzazione cresce linearmente con la dimensione del set di dati, creando una finestra in cui i modelli migliorano senza adattarsi eccessivamente.

Ciò riformula le strategie di arresto anticipato e di ridimensionamento del set di dati; la memorizzazione è prevedibile e ritardata, non inevitabile. Per l’addestramento alla diffusione, l’aumento delle dimensioni del set di dati ritarda attivamente l’overfitting, non solo migliora la qualità.

RL migliora la capacità di campionamento, non di ragionamento

Forse la scoperta che fa più riflettere è che l’apprendimento per rinforzo con ricompense verificabili (RLVR) non crea necessariamente nuove capacità di ragionamento negli LLM. Al contrario, migliora principalmente l’efficienza del campionamento, rimodellando le capacità esistenti anziché generarne di fondamentalmente nuove.

Nel caso di campioni di grandi dimensioni, il modello base spesso contiene già le traiettorie di ragionamento corrette. Ciò significa che RL è meglio inteso come un meccanismo di modellazione della distribuzione, non come un generatore di capacità di ragionamento fondamentale. Per espandere il ragionamento, la RL deve essere abbinata a meccanismi come la distillazione degli insegnanti o i cambiamenti architettonici.

Il quadro più ampio: l’intelligenza artificiale ora è limitata ai sistemi

Il messaggio collettivo di NeurIPS 2025 è chiaro: il progresso dell’IA è ora limitato dalla progettazione del sistema. Il collasso della diversità richiede nuovi parametri di valutazione, i fallimenti di attenzione richiedono soluzioni architettoniche, il ridimensionamento del RL dipende dalla profondità e la memorizzazione è legata alle dinamiche di formazione. Il vantaggio competitivo si sta spostando da “chi ha il modello più grande” a “chi capisce il sistema”.

Questo cambiamento richiede un focus sull’architettura, sulle strategie di formazione e sulla valutazione, non solo sul calcolo grezzo. Il futuro dell’intelligenza artificiale sta nell’ottimizzare il come costruiamo i sistemi, non semplicemente nel renderli più grandi.