ZAYA1-8B: Cómo un Pequeño Modelo Entrenado en GPU AMD Está Rivalizando con Gigantes Como GPT-5

15

Si bien la industria de la IA sigue obsesionada con una carrera armamentista de “más grande es mejor”, liderada por OpenAI y Anthropic en su búsqueda de modelos de billones de parámetros, está en marcha una revolución más silenciosa y eficiente. La última evidencia de este cambio proviene de Zyphra, una startup con sede en Palo Alto que ha lanzado ZAYA1-8B, un modelo de razonamiento compacto que desafía el dominio de las arquitecturas masivas basadas en la nube.

ZAYA1-8B contiene solo 8 mil millones de parámetros, con solo 760 millones activos en un momento dado. A pesar de su modesto tamaño, ofrece un rendimiento competitivo con pesos pesados de la industria como * * GPT-5-High * * y * * DeepSeek-V3.2. Más significativamente, se entrenó completamente en * * GPU AMD Instinct MI300, lo que demuestra que las alternativas viables al casi monopolio de Nvidia en hardware de IA no son solo teóricas, sino prácticas y de alto rendimiento.

La Arquitectura de la Eficiencia

El secreto detrás de la “densidad de inteligencia” de ZAYA1-8B radica en una arquitectura patentada llamada * * MoE++** (Mezcla de expertos). A diferencia de los modelos de transformadores estándar que procesan todos los datos de manera uniforme, MoE enruta tareas específicas a subredes especializadas (“expertos”). Zyphra mejoró este enfoque estándar con tres innovaciones críticas:

  1. ** Atención convolucional comprimida (CCA): * * Los mecanismos de atención tradicionales consumen grandes cantidades de memoria a medida que crecen las ventanas de contexto. CCA comprime este proceso, reduciendo el tamaño de la caché de valores clave en * * 8x**. Esto permite que el modelo maneje el razonamiento de contexto largo sin los cuellos de botella típicos de la memoria.
  2. ** El enrutador MLP ZAYA1:** En lugar de usar enrutadores lineales simples para decidir qué experto maneja un token, Zyphra emplea un diseño perceptrón multicapa (MLP). Para evitar la inestabilidad del entrenamiento, un problema común en los modelos MoE, implementaron un esquema de equilibrio de sesgos inspirado en * * controladores PID * * de la teoría de control clásica.
  3. ** Escalado residual aprendido: * * Esta técnica gestiona el flujo de datos a través de las 40 capas del modelo, evitando la desaparición o explosión del gradiente con un costo computacional insignificante.

Razonamiento Incorporado, No Atornillado

Un diferenciador importante para ZAYA1-8B es su filosofía de entrenamiento. La mayoría de los modelos tienen capacidades de razonamiento agregadas durante el entrenamiento posterior. Zyphra integró el razonamiento desde el inicio del preentrenamiento utilizando una técnica llamada * Recorte de preservación de respuestas (AP) *.

    • Analogía: * * Imagina a un editor de cine cortando una escena larga. En lugar de eliminar el final (la solución) o el comienzo (el problema), el editor elimina el monólogo “intermedio”. El modelo aprende el vínculo directo entre problemas complejos y sus soluciones, incluso si la lógica interna completa excede su capacidad de memoria inicial.

Este enfoque permite que el modelo domine relaciones complejas sin verse limitado por los límites iniciales de la ventana de contexto 4K que a menudo se ven en las primeras etapas de preentrenamiento.

Markovian RSA: Pensar Más Profundamente Sin Hinchar el Contexto

El salto más impresionante en rendimiento del modelo proviene de * * Markovian RSA**, un método novedoso para el cálculo en tiempo de prueba (TTC). Tradicionalmente, hacer que un modelo “piense más” implica generar cadenas de pensamiento más largas, lo que a menudo conduce a una “hinchazón del contexto”, donde el modelo pierde el foco a medida que la historia se alarga demasiado.

El RSA markoviano desacopla la profundidad del pensamiento del tamaño del contexto a través de un proceso recursivo:
* El modelo genera múltiples rastros de razonamiento paralelos.
* Extrae solo las * * “colas” ** (los últimos miles de fichas) de estos rastros.
* Estas colas se combinan en un nuevo mensaje, pidiéndole al modelo que concilie los diferentes enfoques en una solución superior.

Al llevar adelante solo las conclusiones esenciales en lugar de toda la historia, ZAYA1-8B puede razonar indefinidamente sin desbordar su ventana de contexto. En la práctica, esto permitió que el modelo de parámetros activos de 760 MILLONES obtuviera una puntuación * * del 91,9% en AIME ’25** (un punto de referencia de la competencia de matemáticas de secundaria), cerrando la brecha con los modelos que poseían de 30 a 50 veces su recuento de parámetros activos.

Benchmarking: Golpear Por Encima De Su Peso

Zyphra posiciona a ZAYA1-8B como una solución para desarrolladores que necesitan un razonamiento de alto nivel sin la latencia y el costo de los modelos fronterizos. Los resultados son convincentes:

      • Matemáticas y lógica: * * Con Markovian RSA habilitado, ZAYA1-8B obtuvo 89.6% en HMMT ’25, superando * * Claude 4.5 Sonnet * * (79.2%) y GPT-5-High (88.3%).
      • Codificación: * * Logró * * 69.2% en LiveCodeBench, superando a * * DeepSeek-R1-0528.
      • Instrucción Siguiente: * * Obtuvo * * 85.58 en IFEval**, manteniéndose competitivo con modelos mucho más grandes como Intellect-3 (106B).

Sin embargo, el modelo es un especialista. Va a la zaga de los modelos más grandes en tareas “pesadas en conocimiento” como la recuperación amplia de hechos (MMLU-Pro). Esto sugiere una tendencia clara: si bien * * el razonamiento se puede comprimir* en núcleos más pequeños y eficientes, * * la memoria fáctica * aún se beneficia de la escala de parámetros sin procesar.

Código Abierto y Listo para la Empresa

Zyphra ha lanzado ZAYA1-8B bajo la * licencia Apache 2.0 *, una elección estratégica significativa. A diferencia de las licencias “copyleft” (como GPL) que requieren que los trabajos derivados sigan siendo de código abierto, Apache 2.0 es permisivo. Las empresas pueden usar, modificar e integrar ZAYA1-8B en aplicaciones propietarias sin obstáculos legales. También incluye una concesión explícita de derechos de patente, que ofrece seguridad legal para las nuevas empresas que se basan en la arquitectura de Zyphra.

** Notas de Implementación:**
* * * Hardware: * * Optimizado para GPU AMD Instinct MI300, pero capaz de ejecutarse en hardware local para la implementación perimetral.
* * * Software: * * Requiere bifurcaciones específicas de las bibliotecas ‘vllm’ y ‘transformers’`
* * * Escalado: * * Zyphra recomienda el paralelismo de datos (DP) combinado con el Paralelismo Experto (EP). Actualmente, el paralelismo tensorial (TP) no es compatible con el mecanismo CCA.

¿Por qué importa esto: El Fin del Monolito?

Zyphra, fundada en 2021 y dirigida por el CEO Krithik Puthalath y el científico Jefe Beren Millidge, está impulsada por la misión de desafiar el dominio centralizado de la IA en la nube. Con fondos recientes de * * AMD, IBM y otros**, la compañía ha alcanzado el estatus de “Unicornio”, lo que indica una fuerte confianza de la industria en este enfoque descentralizado.

El lanzamiento de ZAYA1-8B resuena con un sentimiento creciente en la comunidad de IA: la eficiencia es la próxima frontera. A medida que los beneficios de simplemente agregar más parámetros comienzan a estabilizarse, los modelos que pueden “pensar de manera más inteligente” en lugar de “más grande” ofrecen un camino viable hacia adelante. Para las empresas, esto significa que las capacidades de razonamiento de alto nivel se pueden implementar localmente, abordando preocupaciones críticas con respecto a residencia de datos, latencia y costo.

ZAYA1-8B demuestra que no necesita un billón de parámetros para resolver problemas complejos, solo necesita la arquitectura adecuada, el método de capacitación adecuado y la libertad de elegir su hardware.