ZAYA1-8B: Comment un Minuscule Modèle Entraîné sur des GPU AMD Rivalise Avec des Géants Comme GPT-5

23

Alors que l’industrie de l’IA reste obsédée par une course aux armements “plus c’est gros, mieux c’est”—menée par OpenAI et Anthropic dans leur quête de modèles à mille milliards de paramètres-une révolution plus silencieuse et plus efficace est en cours. Les dernières preuves de ce changement proviennent de Zyphra, une startup basée à Palo Alto qui a publié ZAYA1-8B, un modèle de raisonnement compact qui remet en question la domination des architectures massives basées sur le cloud.

ZAYA1-8B ne contient que 8 milliards de paramètres, avec seulement 760 millions actifs à un moment donné. Malgré cette taille modeste, il offre des performances compétitives avec les poids lourds de l’industrie comme GPT-5-High et DeepSeek-V3.2. Plus important encore, il a été entièrement formé sur * * GPU AMD Instinct MI300**, prouvant que des alternatives viables au quasi-monopole de Nvidia dans le matériel d’IA ne sont pas seulement théoriques, mais pratiques et très performantes.

L’Architecture de l’Efficacité

Le secret de la “densité d’intelligence” de ZAYA1-8B réside dans une architecture propriétaire appelée * * MoE++** (Mélange d’experts). Contrairement aux modèles de transformateurs standard qui traitent toutes les données de manière uniforme, MoE achemine des tâches spécifiques vers des sous-réseaux spécialisés (“experts”). Zyphra a amélioré cette approche standard avec trois innovations critiques:

  1. ** Attention convolutionnelle compressée (ACC): * * Les mécanismes d’attention traditionnels consomment de grandes quantités de mémoire à mesure que les fenêtres contextuelles se développent. CCA compresse ce processus, réduisant la taille du cache clé-valeur de * * 8x**. Cela permet au modèle de gérer un raisonnement à long contexte sans les goulots d’étranglement typiques de la mémoire.
  2. ** Le routeur MLP ZAYA1: * * Au lieu d’utiliser de simples routeurs linéaires pour décider quel expert gère un jeton, Zyphra utilise une conception de perceptron multicouche (MLP). Pour éviter l’instabilité de l’entraînement—un problème courant dans les modèles MoE-ils ont mis en œuvre un schéma d’équilibrage des biais inspiré des contrôleurs PID de la théorie classique du contrôle.
  3. ** Mise à l’échelle résiduelle apprise:* * Cette technique gère le flux de données à travers les 40 couches du modèle, empêchant la disparition ou l’explosion du gradient avec un coût de calcul négligeable.

Raisonnement Intégré, Non Boulonné

Un facteur de différenciation majeur pour ZAYA1-8B est sa philosophie d’entraînement. La plupart des modèles ont des capacités de raisonnement ajoutées pendant la post-formation. Zyphra a intégré le raisonnement dès le début de la préformation en utilisant une technique appeléeÉlagage préservant les réponses (AP).

    • Analogie: * * Imaginez un monteur de film coupant une longue scène. Au lieu de supprimer la fin (la solution) ou le début (le problème), l’éditeur supprime le monologue du “milieu”. Le modèle apprend le lien direct entre des problèmes complexes et leurs solutions, même si la logique interne complète dépasse sa capacité de mémoire initiale.

Cette approche permet au modèle de maîtriser des relations complexes sans être contraint par les limites initiales de la fenêtre de contexte 4K souvent observées dans les premières étapes de pré-entraînement.

Markovian RSA: Penser Plus Profondément Sans Contexte De Ballonnement

Le saut de performance le plus impressionnant du modèle provient de Markovian RSA, une nouvelle méthode de calcul du temps de test (TTC). Traditionnellement, faire en sorte qu’un modèle “réfléchisse plus fort” implique de générer des chaînes de pensée plus longues, ce qui conduit souvent à un “gonflement du contexte”—où le modèle perd de sa concentration à mesure que l’histoire s’allonge trop.

La RSA markovienne découple la profondeur de réflexion de la taille du contexte grâce à un processus récursif:
* Le modèle génère plusieurs traces de raisonnement parallèles.
* Il extrait uniquement les * * “queues” * * (les derniers milliers de jetons) de ces traces.
* Ces queues sont combinées dans une nouvelle invite, demandant au modèle de concilier les différentes approches en une solution supérieure.

En ne reportant que les conclusions essentielles plutôt que l’histoire entière, ZAYA1-8B peut raisonner indéfiniment sans déborder sa fenêtre de contexte. En pratique, cela a permis au modèle à paramètres actifs de 760 millions d’obtenir un score de 91,9% sur AIME ’25 (un benchmark de concours de mathématiques au lycée), comblant l’écart avec des modèles possédant de 30 à 50 fois son nombre de paramètres actifs.

Benchmarking: Poinçonner Au-Dessus De Son Poids

Zyphra positionne ZAYA1-8B comme une solution pour les développeurs qui ont besoin d’un raisonnement de haut niveau sans la latence et le coût des modèles frontaliers. Les résultats sont convaincants:

      • Mathématiques et logique: * * Avec Markovian RSA activé, ZAYA1-8B a obtenu 89,6% sur HMMT ’25, dépassant * * Claude 4,5 Sonnet * * (79,2%) et *GPT-5-High * (88,3%).
      • Codage: * Il a atteint * * 69,2% sur LiveCodeBench , surpassant * * DeepSeek-R1-0528 *.
      • Instruction Suivante: * * Il a obtenu 85,58 sur IFEval, restant compétitif avec des modèles beaucoup plus grands comme Intellect-3 (106B).

Cependant, le modèle est un spécialiste. Il est à la traîne des modèles plus importants sur les tâches “lourdes en connaissances” comme la récupération factuelle étendue (MMLU-Pro). Cela suggère une tendance claire: alors que * * le raisonnement peut être compressé* * en cœurs plus petits et efficaces, * * la mémoire factuelle * * bénéficie toujours de l’échelle brute des paramètres.

Prêt pour l’Open Source et l’entreprise

Zyphra a publié ZAYA1-8B sous la * * licence Apache 2.0**, un choix stratégique important. Contrairement aux licences” copyleft ” (comme la GPL) qui exigent que les œuvres dérivées restent open source, Apache 2.0 est permissif. Les entreprises peuvent utiliser, modifier et intégrer ZAYA1-8B dans des applications propriétaires sans obstacles juridiques. Il comprend également une concession explicite de droits de brevet, offrant une sécurité juridique aux startups s’appuyant sur l’architecture de Zyphra.

** Notes de déploiement:**
* * * Matériel: * * Optimisé pour les GPU AMD Instinct MI300, mais capable de fonctionner sur du matériel local pour un déploiement en périphérie.
* * * Logiciel: * * Nécessite des fourches spécifiques des bibliothèquesvllm et` transformers’.
** * Mise à l’échelle: * * Zyphra recommande le parallélisme des données (DP) combiné au parallélisme Expert (EP). Le parallélisme tensoriel (TP) n’est actuellement pas pris en charge pour le mécanisme CCA.

Pourquoi Est-ce important: La fin du Monolithe?

Zyphra, fondée en 2021 et dirigée par le PDG Krithik Puthalath et le scientifique en chef Beren Millidge, a pour mission de contester la domination centralisée de l’IA dans le cloud. Avec un financement récent de * * AMD, IBM et d’autres**, la société a atteint le statut de “Licorne”, ce qui témoigne d’une forte confiance de l’industrie dans cette approche décentralisée.

La sortie de ZAYA1-8B résonne avec un sentiment croissant dans la communauté de l’IA: * * l’efficacité est la prochaine frontière. Alors que les avantages de simplement ajouter plus de paramètres commencent à plafonner, les modèles qui peuvent “penser plus intelligemment” plutôt que “plus gros” offrent une voie viable pour aller de l’avant. Pour les entreprises, cela signifie que des capacités de raisonnement de haut niveau peuvent être déployées localement, répondant aux préoccupations critiques concernant * * la résidence des données, la latence et le coût.

La ZAYA1-8B prouve que vous n’avez pas besoin d’un billion de paramètres pour résoudre des problèmes complexes—vous avez juste besoin de la bonne architecture, de la bonne méthode de formation et de la liberté de choisir votre matériel.