ZAYA1-8B: come un piccolo modello addestrato su GPU AMD sta rivaleggiando con giganti come GPT-5

7

Mentre l’industria dell’intelligenza artificiale rimane fissata su una corsa agli armamenti “più grande è meglio”—guidata da OpenAI e Anthropic nella loro ricerca di modelli a trilioni di parametri-è in corso una rivoluzione più silenziosa ed efficiente. L’ultima prova di questo cambiamento viene da Zyphra, una startup basata su Palo Alto che ha rilasciato ZAYA1-8B, un modello di ragionamento compatto che sfida il predominio di massicce architetture basate su cloud.

ZAYA1-8B contiene solo 8 miliardi di parametri, con solo 760 milioni attivi in un dato momento. Nonostante queste dimensioni modeste, offre prestazioni competitive con pesi massimi del settore come * * GPT-5-High * * eDeepSeek-V3.2. Più significativamente, è stato addestrato interamente su GPU AMD Instinct MI300, dimostrando che le valide alternative al quasi monopolio di Nvidia nell’hardware AI non sono solo teoriche, ma pratiche e ad alte prestazioni.

L’architettura dell’efficienza

Il segreto dietro la “densità di intelligenza” di ZAYA1-8B risiede in un’architettura proprietaria chiamata MoE++ (Miscela di esperti). A differenza dei modelli di trasformatori standard che elaborano tutti i dati in modo uniforme, MoE indirizza compiti specifici a sub-reti specializzate (“esperti”). Zyphra ha migliorato questo approccio standard con tre innovazioni critiche:

  1. ** Attenzione convoluzionale compressa (CCA): I meccanismi di attenzione tradizionali consumano grandi quantità di memoria man mano che le finestre di contesto crescono. CCA comprime questo processo, riducendo la dimensione della cache chiave-valore di * * 8x. Ciò consente al modello di gestire il ragionamento a lungo contesto senza i tipici colli di bottiglia della memoria.
  2. ** Il router MLP ZAYA1: * * Invece di utilizzare semplici router lineari per decidere quale esperto gestisce un token, Zyphra impiega un design perceptron multistrato (MLP). Per prevenire l’instabilità della formazione – un problema comune nei modelli MoE-hanno implementato uno schema di bias-balancing ispirato ai controllori PID **dalla teoria del controllo classico.
  3. ** Scala residua appresa: * * Questa tecnica gestisce il flusso di dati attraverso i 40 livelli del modello, prevenendo la scomparsa o l’esplosione del gradiente con costi computazionali trascurabili.

Ragionamento integrato, non imbullonato

Un importante elemento di differenziazione per ZAYA1 – 8B è la sua filosofia di allenamento. La maggior parte dei modelli ha capacità di ragionamento aggiunte durante il post-allenamento. Zyphra ha integrato il ragionamento fin dall’inizio del pretraining utilizzando una tecnica chiamata Answer-Preserving (AP) Trimming.

    • Analogia: * * Immagina un montatore cinematografico che taglia una lunga scena. Invece di eliminare la fine (la soluzione) o l’inizio (il problema), l’editor rimuove il monologo “medio”. Il modello impara il collegamento diretto tra problemi complessi e le loro soluzioni, anche se la logica interna completa supera la sua capacità di memoria iniziale.

Questo approccio consente al modello di padroneggiare relazioni complesse senza essere vincolato dai limiti iniziali della finestra di contesto 4K spesso visti nelle prime fasi di pretraining.

Markovian RSA: Pensare più a fondo senza gonfiare il contesto

Il salto più impressionante del modello in termini di prestazioni proviene da Markovian RSA, un nuovo metodo per il calcolo del tempo di test (TTC). Tradizionalmente, fare in modo che un modello “pensi più duramente” comporta la generazione di catene di pensiero più lunghe, che spesso portano a “gonfiare il contesto”—in cui il modello perde attenzione man mano che la storia cresce troppo a lungo.

Markovian RSA disaccoppia la profondità di pensiero dalla dimensione del contesto attraverso un processo ricorsivo:
* Il modello genera più tracce di ragionamento parallelo.
* Estrae solo le * * “code” ** (le ultime migliaia di gettoni) di queste tracce.
* Queste code sono combinate in un nuovo prompt, chiedendo al modello di conciliare i diversi approcci in una soluzione superiore.

Portando avanti solo le conclusioni essenziali piuttosto che l’intera storia, ZAYA1-8B può ragionare indefinitamente senza traboccare la sua finestra di contesto. In pratica, questo ha permesso al modello a parametro attivo 760M di segnare * * 91,9% su AIME ‘ 25** (un benchmark per la competizione matematica delle scuole superiori), colmando il divario con i modelli che possedevano da 30 a 50 volte il conteggio dei parametri attivi.

Benchmarking: punzonatura sopra il suo peso

Zyphra posiziona ZAYA1 – 8B come una soluzione per gli sviluppatori che necessitano di ragionamento di alto livello senza la latenza e il costo dei modelli di frontiera. I risultati sono convincenti:

      • Math & Logic: * * Con Markovian RSA abilitato, ZAYA1 – 8B ha segnato 89.6% su HMMT ’25, superando Claude 4.5 Sonnet (79.2%) e GPT-5-High (88.3%).
      • Codifica: * * Ha raggiunto * * 69.2% su LiveCodeBench, sovraperformando * * DeepSeek-R1-0528.
      • Istruzione seguente: * * Ha segnato * * 85.58 su IFEval**, rimanendo competitivo con modelli molto più grandi come Intellect-3 (106B).

Tuttavia, il modello è uno specialista. È in ritardo rispetto ai modelli più grandi su attività “pesanti per la conoscenza” come il broad factual retrieval (MMLU-Pro). Ciò suggerisce una tendenza chiara: mentre il ragionamento può essere compresso in core più piccoli ed efficienti, la memoria fattuale beneficia ancora della scala dei parametri grezzi.

Open Source ed Enterprise Ready

Zyphra ha rilasciato ZAYA1 – 8B sotto la licenza Apache 2.0, una scelta strategica significativa. A differenza delle licenze “copyleft” (come la GPL) che richiedono opere derivate per rimanere open-source, Apache 2.0 è permissivo. Le aziende possono utilizzare, modificare e integrare ZAYA1 – 8B in applicazioni proprietarie senza ostacoli legali. Include anche una concessione esplicita di diritti di brevetto, offrendo sicurezza legale per le startup che si basano sull’architettura di Zyphra.

** Note di distribuzione:**
* * * Hardware: * * Ottimizzato per le GPU AMD Instinct MI300, ma in grado di funzionare su hardware locale per la distribuzione edge.
* * * Software: * * Richiede fork specifici delle librerievllm e` transformers’.
* * * Scaling: * * Zyphra raccomanda il parallelismo dei dati (DP) combinato con il parallelismo esperto (EP). Il parallelismo tensoriale (TP) non è attualmente supportato per il meccanismo CCA.

Why This Matters: La fine del Monolite ?

Zyphra, fondata nel 2021 e guidata dal CEO Krithik Puthalath e dal Chief Scientist Beren Millidge, è guidata dalla missione di sfidare il dominio centralizzato dell’IA cloud. Con i recenti finanziamenti di * AMD, IBM e altri *, l’azienda ha raggiunto lo status di “Unicorno”, segnalando una forte fiducia del settore in questo approccio decentralizzato.

Il rilascio di ZAYA1 – 8B risuona con un sentimento crescente nella comunità AI: l’efficienza è la prossima frontiera. Man mano che i benefici della semplice aggiunta di più parametri iniziano a stabilizzarsi, i modelli in grado di “pensare in modo più intelligente” piuttosto che “più grande” offrono un percorso praticabile in avanti. Per le aziende, ciò significa che le capacità di ragionamento di alto livello possono essere implementate localmente, affrontando le preoccupazioni critiche relative alla residenza dei dati, alla latenza e ai costi.

ZAYA1-8B dimostra che non hai bisogno di un trilione di parametri per risolvere problemi complessi: hai solo bisogno dell’architettura giusta, del metodo di allenamento giusto e della libertà di scegliere il tuo hardware.