ZAYA1-8B: hoe een klein Model getraind op AMD GPU ‘ s Rivaalt met reuzen zoals GPT-5

9

Terwijl de AI-industrie gefixeerd blijft op een” groter is beter ” wapenwedloop—geleid door OpenAI en Anthropic in hun zoektocht naar modellen met een biljoen parameters-is een stillere, efficiëntere revolutie aan de gang. Het laatste bewijs van deze verschuiving komt van Zyphra, een startup uit Palo Alto die ZAYA1-8b heeft uitgebracht, een compact redeneringsmodel dat de dominantie van enorme cloudgebaseerde architecturen uitdaagt.

ZAYA1-8B bevat slechts 8 miljard parameters, waarvan slechts 760 miljoen actief zijn op een bepaald moment. Ondanks deze bescheiden omvang levert het prestaties die concurrerend zijn met zwaargewichten uit de industrie zoals GPT-5-High en DeepSeek-V3.2. Belangrijker nog, het werd volledig getraind op AMD Instinct MI300 GPU ‘s, waaruit blijkt dat haalbare alternatieven voor Nvidia’ s bijna-monopolie in AI-hardware niet alleen theoretisch zijn, maar ook praktisch en goed presterend.

Architectuur van efficiëntie

Het geheim achter ZAYA1-8B ‘ s “intelligentie dichtheid” ligt in een gepatenteerde architectuur genaamd MoE++ (mix-of-Experts). In tegenstelling tot standaard Transformatormodellen die alle gegevens uniform verwerken, stuurt MoE specifieke taken naar gespecialiseerde subnetwerken (“experts”). Zyphra verbeterde deze standaardbenadering met drie kritische innovaties:

  1. ** Gecomprimeerde convolutionele aandacht (CCA): * * traditionele aandachtsmechanismen verbruiken enorme hoeveelheden geheugen naarmate contextvensters groeien. CCA comprimeert dit proces, waardoor de cache-grootte van de sleutelwaarde met 8x wordt verminderd. Hierdoor kan het model lange context redeneren zonder de typische geheugen knelpunten.
  2. ** De ZAYA1 MLP-Router: * * in plaats van eenvoudige lineaire routers te gebruiken om te beslissen welke expert een token verwerkt, gebruikt Zyphra een meerlagig perceptron (MLP)-ontwerp. Om trainingsinstabiliteit te voorkomen—een veel voorkomend probleem in MoE—modellen-implementeerden ze een bias-balancing schema geïnspireerd door PID-controllers uit de klassieke besturingstheorie.
  3. ** Learned Residual Scaling: * * deze techniek beheert de stroom van gegevens door de 40 lagen van het model, waardoor gradiëntverduistering of explosie wordt voorkomen met verwaarloosbare rekenkosten.

Redeneren Ingebouwd, Niet Vastgeschroefd

Een belangrijke onderscheidende factor voor ZAYA1-8B is de trainingsfilosofie. De meeste modellen hebben redeneringsmogelijkheden toegevoegd tijdens de post-training. Zyphra integreerde redeneren vanaf het begin van de vooropleiding met behulp van een techniek genaamd Answer-Preserving (AP) trimmen.

    • Analogie: * * stel je voor dat een filmredacteur een lange scène knipt. In plaats van het einde (de oplossing) of het begin (het probleem) te verwijderen, verwijdert de editor de “middelste” monoloog. Het model leert het directe verband tussen complexe problemen en hun oplossingen, zelfs als de volledige interne logica de oorspronkelijke geheugencapaciteit overschrijdt.

Deze benadering stelt het model in staat om complexe relaties te beheersen zonder te worden beperkt door de initiële 4K-contextvensterlimieten die vaak worden gezien in vroege vooropleiding.

Markovian RSA: dieper denken zonder opgeblazen Context

De meest indrukwekkende prestatiesprong van het model komt van Markovian RSA, een nieuwe methode voor test-time compute (ttc). Traditioneel houdt het maken van een model “harder denken” in dat langere denkketens worden gegenereerd, wat vaak leidt tot “contextbloat”waarbij het model de focus verliest naarmate de geschiedenis te lang wordt.

Markovian RSA ontkoppelt denkdiepte van contextgrootte door middel van een recursief proces:
* Het model genereert meerdere parallelle redeneersporen.
* Het extraheert alleen de * * “staarten” ** (de laatste paar duizend tokens) van deze sporen.
* Deze staarten worden gecombineerd in een nieuwe prompt, waarbij het model wordt gevraagd de verschillende benaderingen te verzoenen tot een superieure oplossing.

Door alleen de essentiële conclusies voort te zetten in plaats van de hele geschiedenis, kan ZAYA1-8B oneindig redeneren zonder zijn contextvenster te overlopen. In de praktijk kon het 760M-model met actieve parameters 91,9% scoren op AIME ’25 **(een benchmark voor wiskundewedstrijden op middelbare scholen), waardoor de kloof werd gedicht met modellen met 30 tot 50 keer het aantal actieve parameters.

Benchmarking: Ponsen Boven Zijn Gewicht

Zyphra positioneert ZAYA1-8b als een oplossing voor ontwikkelaars die een high-tier redenering nodig hebben zonder de latency en kosten van frontier-modellen. De resultaten zijn overtuigend:

      • Math & Logic: * * met Markovian RSA ingeschakeld scoorde ZAYA1-8b 89,6% op HMMT ’25, en overtrof Claude 4,5 Sonnet (79,2%) en GPT-5-High (88,3%).
      • Codering: het behaalde * * 69,2% op LiveCodeBench, beter presterend * * DeepSeek-R1-0528**.
      • Instructie volgende: Het scoorde 85,58 op IFEval**, en bleef concurrerend met veel grotere modellen zoals Intellect-3 (106b).

Het model is echter een specialist. Het loopt achter op grotere modellen op “kennis-zware” taken zoals broad factual retrieval (MMLU-Pro). Dit suggereert een duidelijke trend: hoewel * * redenering kan worden gecomprimeerd in kleinere, efficiënte kernen, ** feitelijk geheugen* * profiteert nog steeds van ruwe parameterschaal.

Open Source en Enterprise Ready

Zyphra heeft ZAYA1-8b uitgebracht onder de Apache 2.0 licentie, een belangrijke strategische keuze. In tegenstelling tot “copyleft” licenties (zoals GPL) die vereisen dat afgeleide werken open-source blijven, is Apache 2.0 tolerant. Bedrijven kunnen ZAYA1-8b gebruiken, wijzigen en integreren in eigen applicaties zonder juridische hindernissen. Het omvat ook een expliciete toekenning van octrooirechten, die juridische veiligheid biedt voor startups die bouwen op de architectuur van Zyphra.

** Implementatie Notities:**
** * Hardware: * * geoptimaliseerd voor AMD Instinct MI300 GPU ‘ s, maar geschikt voor lokale hardware voor edge-implementatie.
* * * Software: * * vereist specifieke forks vanvllm en` transformers ‘ bibliotheken.
* * * Scaling: * * Zyphra beveelt Data parallelisme (DP) aan in combinatie met Expert parallelisme (EP). Tensorparallelisme (TP) wordt momenteel niet ondersteund voor het CCA-mechanisme.

Why This Matters: het einde van de monoliet?

Zyphra, opgericht in 2021 en geleid door CEO Krithik Puthalath en Chief Scientist Beren Millidge, wordt gedreven door een missie om de gecentraliseerde dominantie van cloud AI uit te dagen. Met recente financiering van AMD, IBM en anderen heeft het bedrijf de status van “eenhoorn” bereikt, wat een sterk vertrouwen in de industrie in deze gedecentraliseerde aanpak aangeeft.

De release van ZAYA1-8B resoneert met een groeiend sentiment in de AI-gemeenschap: efficiëntie is de volgende grens. Naarmate de voordelen van het simpelweg toevoegen van meer parameters beginnen te plateau, bieden modellen die “slimmer kunnen denken” in plaats van “groter” een levensvatbaar pad vooruit. Voor bedrijven betekent dit dat high-tier redeneringsmogelijkheden lokaal kunnen worden ingezet, om kritieke zorgen met betrekking tot gegevensresidentie, latency en kosten aan te pakken.

ZAYA1-8B bewijst dat je geen biljoen parameters nodig hebt om complexe problemen op te lossen—je hebt alleen de juiste architectuur, de juiste trainingsmethode en de vrijheid om je hardware te kiezen nodig.