Neueste Nachrichten und Artikel

ZAYA1-8B: Wie ein winziges Modell, das auf AMD-GPUs trainiert wurde, mit Giganten wie GPT-5 konkurriert

09.05.2026

Während die KI-Industrie weiterhin auf ein Wettrüsten nach dem Motto “Größer ist besser” fixiert ist — angeführt von OpenAI und Anthropic auf der Suche nach Modellen mit Billionen Parametern -, ist eine leisere, effizientere Revolution im Gange. Der neueste Beweis für diese Verschiebung stammt von Zyphra, einem in Palo Alto ansässigen Startup, das ** ZAYA1-8B ** veröffentlicht hat, ein kompaktes Argumentationsmodell, das die Dominanz massiver Cloud-basierter Architekturen in Frage stellt.

ZAYA1-8B enthält nur 8 Milliarden Parameter, von denen zu einem bestimmten Zeitpunkt nur 760 Millionen aktiv sind. Trotz dieser bescheidenen Größe bietet es eine Leistung, die mit Branchenschwergewichten wie ** GPT-5-High ** und ** DeepSeek-V3.2 ** mithalten kann. Noch wichtiger ist, dass es vollständig auf ** AMD Instinct MI300-GPUs ** trainiert wurde, was beweist, dass praktikable Alternativen zu Nvidias Beinahe-Monopol bei KI-Hardware nicht nur theoretisch, sondern praktisch und leistungsstark sind.

Die Architektur der Effizienz

Das Geheimnis hinter der “Intelligenzdichte” von ZAYA1-8B liegt in einer proprietären Architektur namens **MoE++ ** (Mixture-of-Experts). Im Gegensatz zu Standard-Transformatormodellen, die alle Daten einheitlich verarbeiten, leitet MoE bestimmte Aufgaben an spezialisierte Subnetzwerke (“Experten”) weiter. Zyphra hat diesen Standardansatz um drei wichtige Neuerungen erweitert:

** Komprimierte Faltungs Aufmerksamkeit (CCA): ** Traditionelle Aufmerksamkeitsmechanismen verbrauchen große Mengen an Speicher als Kontextfenster wachsen. CCA komprimiert diesen Prozess und reduziert die Schlüsselwert-Cache-Größe um ** 8x **. Dies ermöglicht es dem Modell, Argumentation mit langem Kontext ohne die typischen Speicherengpässe zu handhaben.
** Der MLP-Router ZAYA1: ** Anstatt einfache lineare Router zu verwenden, um zu entscheiden, welcher Experte mit einem Token umgeht, verwendet Zyphra ein MLP-Design (Multi-Layer Perceptron). Um Trainingsinstabilität zu vermeiden — ein häufiges Problem in MoE-Modellen – implementierten sie ein Bias-Balancing-Schema, das von ** PID-Reglern ** aus der klassischen Regelungstheorie inspiriert war.
** Erlernte Restskalierung: ** Diese Technik verwaltet den Datenfluss durch die 40 Schichten des Modells und verhindert das Verschwinden oder die Explosion von Gradienten mit vernachlässigbarem Rechenaufwand.

Argumentation eingebaut, nicht angeschraubt

Ein Hauptunterscheidungsmerkmal für ZAYA1-8B ist seine Trainingsphilosophie. Die meisten Modelle verfügen über Argumentationsfähigkeiten, die während des Nachtrainings hinzugefügt wurden. Zyphra integrierte Argumentation von Beginn des Vortrainings an mit einer Technik, die als ** Antworterhaltendes (AP) Trimmen ** bezeichnet wird.

** Analogie: ** Stellen Sie sich einen Filmeditor vor, der eine lange Szene schneidet. Anstatt das Ende (die Lösung) oder den Anfang (das Problem) zu löschen, entfernt der Editor den “mittleren” Monolog. Das Modell lernt den direkten Zusammenhang zwischen komplexen Problemen und ihren Lösungen, auch wenn die volle interne Logik seine anfängliche Speicherkapazität überschreitet.

Dieser Ansatz ermöglicht es dem Modell, komplexe Beziehungen zu meistern, ohne durch die anfänglichen Grenzen des 4K-Kontextfensters eingeschränkt zu sein, die häufig in frühen Vortrainingsphasen auftreten.

Markovian RSA: Tiefer denken ohne den Kontext aufzublähen

Der beeindruckendste Leistungssprung des Modells kommt von ** Markovian RSA **, einer neuartigen Methode für Testzeitberechnung (TTC). Traditionell bedeutet es, ein Modell “härter denken” zu lassen, längere Gedankenketten zu generieren, was oft zu “Kontextaufblähung” führt — wo das Modell den Fokus verliert, wenn die Geschichte zu lang wird.

Markovianisches RSA entkoppelt die Denktiefe von der Kontextgröße durch einen rekursiven Prozess:
* Das Modell generiert mehrere parallele Argumentationsspuren.
* Es extrahiert nur die ** “Schwänze” ** (die letzten paar tausend Token) dieser Spuren.
* Diese Schwänze werden zu einer neuen Eingabeaufforderung kombiniert, die das Modell auffordert, die verschiedenen Ansätze zu einer überlegenen Lösung in Einklang zu bringen.

Indem nur die wesentlichen Schlussfolgerungen und nicht die gesamte Geschichte vorgetragen werden, kann ZAYA1-8B unbegrenzt argumentieren, ohne sein Kontextfenster zu überlaufen. In der Praxis ermöglichte dies dem 760M-Modell mit aktiven Parametern eine Punktzahl von ** 91,9% bei AIME ’25 ** (einem Benchmark für Mathematikwettbewerbe an Gymnasien) und schloss die Lücke zu Modellen, die das 30- bis 50-fache ihrer aktiven Parameterzahl besaßen.

Benchmarking: Über sein Gewicht schlagen

Zyphra positioniert ZAYA1-8B als Lösung für Entwickler, die High-Tier-Argumentation ohne die Latenz und die Kosten von Grenzmodellen benötigen. Die Ergebnisse sind überzeugend:

** Mathematik & Logik: ** Mit aktiviertem Markovian RSA erzielte ZAYA1-8B ** 89,6% auf HMMT ’25 ** und übertraf damit ** Claude 4,5 Sonnet ** (79,2%) und ** GPT-5-Hoch ** (88,3%).
** Codierung: ** Es erreichte ** 69,2% auf LiveCodeBench ** und übertraf ** DeepSeek-R1-0528 **.
** Anweisung folgt: ** Es erzielte ** 85,58 auf IFEval ** und blieb mit viel größeren Modellen wie Intellect-3 (106B) wettbewerbsfähig.

Das Modell ist jedoch ein Spezialist. Bei “wissensintensiven” Aufgaben wie Broad Factual Retrieval (MMLU-Pro) hinkt es größeren Modellen hinterher. Dies deutet auf einen klaren Trend hin: Während ** Argumentation ** in kleinere, effiziente Kerne komprimiert werden kann, profitiert ** Sachgedächtnis ** immer noch von der rohen Parameterskala.

Open Source und bereit für Unternehmen

Zyphra hat ZAYA1-8B unter der **Apache 2.0-Lizenz ** veröffentlicht, eine wichtige strategische Entscheidung. Im Gegensatz zu “Copyleft” -Lizenzen (wie GPL), die verlangen, dass abgeleitete Werke Open Source bleiben, ist Apache 2.0 freizügig. Unternehmen können ZAYA1-8B ohne rechtliche Hürden verwenden, modifizieren und in proprietäre Anwendungen integrieren. Es beinhaltet auch eine explizite Gewährung von Patentrechten, die Startups, die auf der Architektur von Zyphra aufbauen, Rechtssicherheit bieten.

** Hinweise zur Bereitstellung:**
* ** Hardware: ** Optimiert für AMD Instinct MI300-GPUs, kann jedoch auf lokaler Hardware für die Edge-Bereitstellung ausgeführt werden.
* ** Software: ** Erfordert bestimmte Gabeln von vllm – und `Transformers’-Bibliotheken.
* ** Skalierung: ** Zyphra empfiehlt Datenparallelität (DP) in Kombination mit Expertenparallelität (EP). Tensorparallelität (TP) wird derzeit für den CCA-Mechanismus nicht unterstützt.

Warum das wichtig ist: Das Ende des Monolithen?

Zyphra, gegründet im Jahr 2021 und geleitet von CEO Krithik Puthalath und Chefwissenschaftler Beren Millidge, verfolgt die Mission, die zentralisierte Dominanz der Cloud-KI in Frage zu stellen. Mit der jüngsten Finanzierung von AMD, IBM und anderen hat das Unternehmen den Status “Einhorn” erreicht, was ein starkes Vertrauen der Branche in diesen dezentralen Ansatz signalisiert.

Die Veröffentlichung von ZAYA1-8B spiegelt eine wachsende Stimmung in der KI-Community wider: ** Effizienz ist die nächste Grenze **. Da sich die Vorteile des einfachen Hinzufügens weiterer Parameter allmählich verbessern, bieten Modelle, die eher “intelligenter” als “größer” denken können, einen gangbaren Weg nach vorne. Für Unternehmen bedeutet dies, dass hochrangige Argumentationsfunktionen lokal bereitgestellt werden können, um kritische Bedenken hinsichtlich ** Datenresidenz, Latenz und Kosten ** zu berücksichtigen.

ZAYA1-8B beweist, dass Sie keine Billion Parameter benötigen, um komplexe Probleme zu lösen — Sie brauchen nur die richtige Architektur, die richtige Trainingsmethode und die Freiheit, Ihre Hardware zu wählen.

ZAYA1-8B: Wie ein winziges Modell, das auf AMD-GPUs trainiert wurde, mit Giganten wie GPT-5 konkurriert

Die Architektur der Effizienz

Argumentation eingebaut, nicht angeschraubt

Markovian RSA: Tiefer denken ohne den Kontext aufzublähen

Benchmarking: Über sein Gewicht schlagen

Open Source und bereit für Unternehmen

Warum das wichtig ist: Das Ende des Monolithen?

Популярні

AirPods Max: Der bizarre Gefrierschrank-Fix, der (vorübergehend) funktioniert

Під тиском Roblox, Fortnite дозволяє творцям продавати внутрішньо -ігрові об’єкти

Überleben durch Automatisierung: Wie Japan physische KI nutzt, um eine demografische...

So fordern Sie Ihren Google-Speicher zurück, ohne für ein Upgrade zu...

Wordle #1667 Lösung und Hinweise für den 11. Januar

Reparierbare Smartwatches: Ein neues Konzept stellt die Standards der Technologiebranche in...

Unternehmens-KI: Vom Hype zum echten Wert durch Agentendesign

OpenAI unterbricht die Erweiterung des britischen Rechenzentrums aufgrund von Energie- und...

Apple презентує новітню лінійку iPhone: чекайте преміальних цін

ВИБІР РЕДАКТОРА

Die digitale Verzerrung: Wie soziale Medien und KI die Holocaust-Aufklärung in...

Decoding NYT Connections Puzzle #1056: Von Kabinettsabteilungen zu versteckten Schlagzeilen

Bose Ditches Its Proprietary App for a Simpler, Streaming-First Audio Experience

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

iPhone Air або 17 Pro? Apple не полегшує попереднє замовлення

Zeekr стає частиною Сім’ї Geely: перезавантаження розкішного електромобільного бренду

Як за допомогою ШІ створити власну осінню програму (і дізнатися цікаві...

ПОПУЛЯРНА КАТЕГОРІЯ