El progreso de la IA ahora está limitado por el sistema: conclusiones clave de NeurIPS 2025

15

Los desarrollos más significativos de NeurIPS 2025 no se referían a modelos más grandes; se trataba de comprender cómo mejorar los sistemas actuales. Los investigadores revelaron que el avance de la IA está cada vez más limitado por la arquitectura, los métodos de capacitación y las estrategias de evaluación, no solo por la capacidad del modelo. Los artículos presentados desafían suposiciones arraigadas sobre la escala, el razonamiento e incluso las capacidades fundamentales del aprendizaje por refuerzo. A continuación se presenta un desglose de cinco hallazgos clave y sus implicaciones para el desarrollo de la IA en el mundo real.

Los LLM están convergiendo: midiendo la homogeneidad en la generación

Durante años, la evaluación de LLM se ha centrado en la precisión. Sin embargo, en tareas que exigen creatividad o perspectivas diversas, el verdadero problema no es la corrección sino la homogeneidad. Las últimas investigaciones demuestran que los modelos de diferentes arquitecturas y proveedores convergen cada vez más en resultados similares y “seguros”.

El punto de referencia “Infinity-Chat” introduce métricas para medir tanto el colapso intramodelo (autorepetición) como la homogeneidad entre modelos (similitud entre modelos). Los resultados revelan una tendencia preocupante: incluso cuando existen múltiples respuestas válidas, los LLM tienden a producir respuestas notablemente similares.

Por qué esto es importante: Para las empresas que dependen de resultados creativos, esto significa que el ajuste de preferencias y las restricciones de seguridad pueden reducir inadvertidamente la diversidad, lo que lleva a asistentes de IA predecibles o sesgados. Es necesario priorizar las métricas de diversidad junto con las medidas de precisión tradicionales.

La atención no se resuelve: el impacto de la atención cerrada

Se ha reexaminado la atención a los transformadores, que a menudo se trata como un problema de ingeniería resuelto. Un cambio arquitectónico simple (aplicar una puerta sigmoidea dependiente de la consulta después de la atención escalada del producto punto) mejoró constantemente la estabilidad, redujo los “sumideros de atención” y mejoró el rendimiento de contexto largo en ejecuciones de entrenamiento a gran escala.

La puerta introduce no linealidad y escasez implícita, lo que puede abordar problemas de confiabilidad previamente inexplicables. Esto sugiere que algunos de los mayores problemas de LLM son arquitectónicos más que algorítmicos y pueden resolverse con modificaciones sorprendentemente pequeñas.

Escalado de RL: la clave es la profundidad, no solo los datos

La sabiduría convencional sugiere que el aprendizaje por refuerzo (RL) lucha por escalar sin recompensas o demostraciones densas. Sin embargo, una nueva investigación demuestra que escalar la profundidad de la red (de las típicas 2 a 5 capas a casi 1000) mejora drásticamente la RL autosupervisada y condicionada por objetivos.

Junto con objetivos contrastantes y una optimización estable, esta profundidad desbloquea ganancias que van desde 2X hasta 50X. Para sistemas agentes y flujos de trabajo autónomos, esto resalta el papel fundamental de la profundidad de representación en la generalización y exploración.

Modelos de difusión: por qué generalizan en lugar de memorizar

Los modelos de difusión están enormemente sobreparametrizados, pero a menudo se generalizan bien. Los investigadores identificaron dos escalas de tiempo de capacitación distintas: una rápida mejora de la calidad y una aparición mucho más lenta de la memorización. La escala de tiempo de memorización crece linealmente con el tamaño del conjunto de datos, creando una ventana donde los modelos mejoran sin sobreajuste.

Esto replantea las estrategias de parada temprana y escalamiento de conjuntos de datos; la memorización es predecible y retrasada, no inevitable. Para el entrenamiento de difusión, aumentar el tamaño del conjunto de datos retrasa activamente el sobreajuste, no solo mejora la calidad.

RL mejora la capacidad de muestreo, no de razonamiento

Quizás el hallazgo más aleccionador: el aprendizaje reforzado con recompensas verificables (RLVR) no necesariamente crea nuevas habilidades de razonamiento en los LLM. En cambio, mejora principalmente la eficiencia del muestreo, remodelando las capacidades existentes en lugar de generar otras fundamentalmente nuevas.

En muestras de gran tamaño, el modelo base a menudo ya contiene las trayectorias de razonamiento correctas. Esto significa que la RL se entiende mejor como un mecanismo que configura la distribución, no como un generador de capacidad de razonamiento central. Para ampliar el razonamiento, la RL debe combinarse con mecanismos como la destilación docente o cambios arquitectónicos.

El panorama general: la IA ahora está limitada por los sistemas

El mensaje colectivo de NeurIPS 2025 es claro: el progreso de la IA ahora está limitado por el diseño del sistema. El colapso de la diversidad requiere nuevas métricas de evaluación, las fallas de atención exigen correcciones arquitectónicas, la escala de RL depende de la profundidad y la memorización está ligada a la dinámica del entrenamiento. La ventaja competitiva está pasando de “quién tiene el modelo más grande” a “quién entiende el sistema”.

Este cambio requiere centrarse en la arquitectura, las estrategias de capacitación y la evaluación, no solo en la computación en bruto. El futuro de la IA radica en optimizar cómo construimos sistemas, no simplemente en hacerlos más grandes.