O progresso da IA agora é limitado pelo sistema: principais conclusões do NeurIPS 2025

5

Os desenvolvimentos mais significativos do NeurIPS 2025 não foram sobre modelos maiores; o objetivo era entender como melhorar os sistemas atuais. Os pesquisadores revelaram que o avanço da IA ​​é cada vez mais limitado pela arquitetura, métodos de treinamento e estratégias de avaliação – e não apenas pela capacidade do modelo. Os artigos apresentados desafiam suposições de longa data sobre escalonamento, raciocínio e até mesmo as capacidades fundamentais da aprendizagem por reforço. Aqui está uma análise de cinco descobertas principais e suas implicações para o desenvolvimento de IA no mundo real.

LLMs estão convergindo: medindo a homogeneidade na geração

Durante anos, a avaliação do LLM concentrou-se na precisão. No entanto, em tarefas que exigem criatividade ou perspectivas diversas, o verdadeiro problema não é a correção, mas a homogeneidade. A pesquisa mais recente demonstra que modelos em diferentes arquiteturas e provedores estão cada vez mais convergindo para resultados semelhantes e “seguros”.

O benchmark “Infinity-Chat” introduz métricas para medir tanto o colapso intramodelo (auto-repetição) quanto a homogeneidade intermodelo (semelhança entre modelos). Os resultados revelam uma tendência preocupante: mesmo quando existem múltiplas respostas válidas, os LLMs tendem a produzir respostas notavelmente semelhantes.

Por que isso é importante: Para empresas que dependem de resultados criativos, isso significa que o ajuste de preferências e as restrições de segurança podem reduzir inadvertidamente a diversidade, levando a assistentes de IA previsíveis ou tendenciosos. As métricas de diversidade precisam ser priorizadas juntamente com as medidas tradicionais de precisão.

A atenção não foi resolvida: o impacto da atenção bloqueada

A atenção do transformador, muitas vezes tratada como um problema de engenharia resolvido, foi reexaminada. Uma simples mudança arquitetônica – aplicação de uma porta sigmóide dependente de consulta após atenção escalonada do produto escalar – melhorou consistentemente a estabilidade, reduziu os “sumidouros de atenção” e melhorou o desempenho de longo contexto em execuções de treinamento em grande escala.

A porta introduz não linearidade e dispersão implícita, o que pode resolver problemas de confiabilidade anteriormente inexplicáveis. Isto sugere que alguns dos maiores problemas do LLM são arquitetônicos e não algorítmicos, e podem ser resolvidos com modificações surpreendentemente pequenas.

Dimensionamento RL: profundidade, não apenas dados, é fundamental

A sabedoria convencional sugere que a aprendizagem por reforço (RL) luta para crescer sem recompensas ou demonstrações densas. No entanto, uma nova pesquisa demonstra que o dimensionamento da profundidade da rede — das típicas 2 a 5 camadas para quase 1.000 — melhora drasticamente a RL autosupervisionada e condicionada por objetivos.

Combinada com objetivas contrastantes e otimização estável, essa profundidade desbloqueia ganhos que variam de 2X a 50X. Para sistemas agentes e fluxos de trabalho autônomos, isso destaca o papel crítico da profundidade de representação na generalização e exploração.

Modelos de difusão: por que generalizam em vez de memorizar

Os modelos de difusão são extremamente parametrizados, mas muitas vezes generalizam bem. Os pesquisadores identificaram dois prazos de treinamento distintos: uma rápida melhoria da qualidade e um surgimento muito mais lento da memorização. A escala de tempo de memorização cresce linearmente com o tamanho do conjunto de dados, criando uma janela onde os modelos melhoram sem overfitting.

Isso reformula as estratégias de parada antecipada e escalonamento de conjuntos de dados; a memorização é previsível e atrasada, não inevitável. Para o treinamento de difusão, aumentar o tamanho do conjunto de dados atrasa ativamente o overfitting, e não apenas melhora a qualidade.

RL melhora a amostragem, não a capacidade de raciocínio

Talvez a descoberta mais preocupante: a aprendizagem por reforço com recompensas verificáveis (RLVR) não cria necessariamente novas habilidades de raciocínio em LLMs. Em vez disso, melhora principalmente a eficiência da amostragem, remodelando as capacidades existentes em vez de gerar capacidades fundamentalmente novas.

Em amostras grandes, o modelo base geralmente já contém as trajetórias de raciocínio corretas. Isso significa que a RL é melhor compreendida como um mecanismo de modelagem de distribuição, e não como um gerador de capacidade central de raciocínio. Para expandir o raciocínio, a RL precisa ser combinada com mecanismos como a destilação do professor ou mudanças arquitetônicas.

Visão geral: a IA agora é limitada pelos sistemas

A mensagem coletiva do NeurIPS 2025 é clara: o progresso da IA está agora limitado pelo design do sistema. O colapso da diversidade requer novas métricas de avaliação, as falhas de atenção exigem correções arquitetônicas, o escalonamento de RL depende da profundidade e a memorização está ligada à dinâmica de treinamento. A vantagem competitiva está mudando de “quem tem o maior modelo” para “quem entende o sistema”.

Essa mudança requer foco na arquitetura, nas estratégias de treinamento e na avaliação, e não apenas na computação bruta. O futuro da IA ​​reside em otimizar como construímos sistemas, e não simplesmente em torná-los maiores.