ZAYA1-8B: jak kompaktowy model GPU AMD rzuca wyzwanie Gigantom takim jak GPT-5

16

Podczas gdy przemysł sztucznej inteligencji jest pasjonatem wyścigu zbrojeń ” im więcej, tym lepiej — – kierowanego przez OpenAI i Anthropic, którzy dążą do modeli o bilionach parametrów — po cichu rozwija się bardziej wydajna rewolucja. Najnowszy dowód tej zmiany pochodzi od Zyphry, startupu z Palo Alto, który wypuścił ZAYA1-8B -kompaktowy model rozumowania, który kwestionuje dominację masywnych architektur chmurowych.

ZAYA1-8B zawiera tylko 8 miliardów parametrów, z których tylko 760 milionów jest aktywnych w danym momencie. Pomimo niewielkich rozmiarów wykazuje wydajność konkurencyjną w stosunku do branżowych wagi ciężkiej, takich jak GPT-5-High I DeepSeek-V3.2. Co ważniejsze, została przeszkolona w całości na * * GPU AMD Instinct MI300**, udowadniając, że realne alternatywy dla niemal monopolu Nvidii w dziedzinie sprzętu AI są nie tylko teoretyczne, ale także praktyczne, wysokowydajne rozwiązania.

Architektura efektywności

Sekret “gęstości inteligencji” ZAYA1 – 8b tkwi w zastrzeżonej architekturze MoE++ (Mixture-of-Experts, Mieszanka ekspertów). W przeciwieństwie do standardowych modeli Transformer, które przetwarzają wszystkie dane w jednolity sposób, MoE kieruje określone zadania do wyspecjalizowanych podsieci (“ekspertów”). Zyphra udoskonaliła to standardowe podejście dzięki trzem kluczowym innowacjom:

  1. ** Skompresowana Uwaga splotowa (CCA): tradycyjne mechanizmy uwagi zużywają ogromne ilości pamięci w miarę wzrostu okien kontekstowych. CCA kompresuje ten proces, zmniejszając rozmiar pamięci podręcznej kluczy i wartości o * * 8 razy. Pozwala to modelowi przetwarzać rozumowanie z długim kontekstem bez typowych wąskich gardeł pamięci.
  2. ** Router MLP ZAYA1: * * zamiast używać prostych routerów liniowych do decydowania, który “ekspert” obsługuje Token, Zyphra stosuje projekt perceptronu wielowarstwowego (MLP). Aby zapobiec niestabilności uczenia się-częstemu problemowi w modelach MoE-wdrożyli schemat równoważenia przemieszczeń inspirowany PID z klasycznej teorii sterowania.
  3. ** Wyszkolone skalowanie resztkowe: * * ta technika zarządza przepływem danych przez 40 warstw modelu, zapobiegając zanikaniu lub eksplozji gradientów przy znikomym koszcie obliczeniowym.

Rozumowanie jest osadzone, a nie dodane po fakcie

Kluczową różnicą między ZAYA1-8B jest filozofia uczenia się. W większości modeli umiejętności rozumowania są dodawane w fazie Post-uczenia się. Zyphra zintegrowała rozumowanie od początku transformacji, stosując technikę zwaną** Answer-Preserving (AP) Trimming * * (przycinanie z zachowaniem odpowiedzi).

    • Analogia: * * wyobraź sobie montażystę filmowego, który wycina długą scenę. Zamiast usuwać koniec (rozwiązanie) lub początek (problem), edytor usuwa “środkowy” monolog. Model uczy się bezpośredniego związku między złożonymi problemami a ich rozwiązaniami, nawet jeśli pełna logika wewnętrzna przekracza początkowe możliwości pamięci.

Takie podejście pozwala modelowi opanować złożone relacje bez ograniczania się do początkowych limitów okna kontekstowego w tokenach 4K, często spotykanych na wczesnych etapach transformacji.

Markowski RSA: Głębokie refleksje bez nadwyrężania kontekstu

Najbardziej imponujący skok w wydajności modelu zapewnia** Markovian RSA * * — nowa metoda obliczeń podczas testów (TTC). Tradycyjnie zmuszanie modelu do” mocniejszego myślenia “oznacza generowanie dłuższych łańcuchów myśli, co często prowadzi do” nadmuchania kontekstu ” — utraty koncentracji Modelu, gdy historia staje się zbyt długa.

Markovian RSA dzieli głębię refleksji i rozmiar kontekstu poprzez proces rekurencyjny:
* Model generuje wiele równoległych śladów rozumowania.
* Pobiera tylko * * “ogony” * * (ostatnie kilka tysięcy tokenów) tych śladów.
* Te ogony łączą się w Nowy prompt, prosząc model o dopasowanie różnych podejść do doskonałego rozwiązania.

Przenosząc do przodu tylko istotne wnioski, a nie całą historię, ZAYA1 – 8b może rozumować bez ograniczeń, nie przepełniając swojego okna kontekstowego. W praktyce pozwoliło to modelowi z 760 milionami aktywnych parametrów uzyskać * * 91,9% na AIME ’25 * * (benchmark Olimpiady Matematycznej dla starszych uczniów), zmniejszając różnicę w stosunku do Modeli z 30-50 razy większą liczbą aktywnych parametrów.

Benchmarki: wynik powyżej klasy

Zyphra pozycjonuje ZAYA1 – 8b jako rozwiązanie dla programistów, którzy chcą wysokiej klasy rozumowania bez opóźnień i kosztów typowych dla zaawansowanych modeli. Wyniki są przekonujące:

      • Matematyka i logika: * * po włączeniu Markovian RSA ZAYA1-8B uzyskał 89,6% na HMMT ’25, pokonując Claude 4.5 Sonnet (79,2%) i** GPT-5-High * * (88,3%).
      • Kodowanie: * * osiągnął * * 69,2% na LiveCodeBench, przewyższając * * DeepSeek-R1-0528.
      • Postępuj zgodnie z instrukcjami: * * zdobył * * 85,58 na IFEval**, pozostając konkurencyjnym w stosunku do znacznie większych modeli, takich jak Intellect-3 (106b).

Jednak model jest specjalistą. Pozostaje w tyle za większymi modelami w zadaniach wymagających dużej wiedzy, takich jak szerokie próbkowanie faktyczne (MMLU-Pro). Wskazuje to na wyraźny trend: chociaż * * rozumowanie można skompresować * * do małych, wydajnych jąder, * * rzeczywista pamięć * * nadal korzysta z przybliżonej skali parametrów.

Open source i gotowość dla sektora korporacyjnego

Zyphra wydała ZAYA1 – 8b na licencji Apache 2.0, co było znaczącym wyborem strategicznym. W przeciwieństwie do licencji “copylevt” (takich jak GPL), które wymagają, aby prace pochodne pozostały otwarte, Apache 2.0 jest liberalny. Przedsiębiorstwa mogą używać, modyfikować i integrować ZAYA1-8b z zastrzeżonymi aplikacjami bez przeszkód prawnych. Licencja obejmuje również wyraźne przyznanie praw patentowych, zapewniając bezpieczeństwo prawne startupom budującym swoje produkty na architekturze Zyphra.

** Uwagi dotyczące wdrażania:**
* * * Sprzęt: * * zoptymalizowany pod kątem GPU AMD Instinct MI300, ale może działać na lokalnym sprzęcie do obliczeń krawędziowych.
* * * Oprogramowanie: * * wymaga specyficznych rozwidleń bibliotek “vllm” i “transformers”.
* * * Skalowanie: * * Zyphra zaleca współbieżność danych (DP) w połączeniu z współbieżnością ekspertów (EP). Współbieżność tensorów (TP) nie jest obecnie obsługiwana dla mechanizmu CCA.

Dlaczego to ma znaczenie: koniec ery monumentalnych modeli?

Zyphra, założona w 2021 roku i kierowana przez Dyrektora Generalnego Krishika Putalata i głównego naukowca Berena Millidge ‘ a, kieruje się misją zakwestionowania scentralizowanej dominacji sztucznej inteligencji w chmurze. Dzięki niedawnym funduszom od* * AMD, IBM i innych * * firma osiągnęła status “jednorożca”, sygnalizując silne zaufanie branży do tego zdecentralizowanego podejścia.

Wydanie ZAYA1-8B rezonuje z rosnącą opinią w społeczności AI: * * wydajność to kolejna granica. Ponieważ korzyści z prostego dodawania parametrów zaczynają się stabilizować, modele, które mogą “myśleć mądrzej”, a nie “większe”, oferują realną drogę naprzód. W przypadku przedsiębiorstw oznacza to, że zaawansowane możliwości rozumowania można wdrożyć lokalnie, rozwiązując krytyczne problemy związane z rezydencją danych, opóźnieniami i kosztami**.

ZAYA1-8B udowadnia, że do rozwiązywania złożonych problemów nie potrzeba bilionów parametrów — potrzebna jest odpowiednia Architektura, odpowiednia metoda szkolenia i swoboda wyboru sprzętu.