ZAYA1-8B: Как компактная модель на GPU AMD бросает вызов гигантам вроде GPT-5

22

Пока индустрия искусственного интеллекта увлечена гонкой вооружений по принципу «чем больше, тем лучше» — во главе с OpenAI и Anthropic, стремящимися к моделям с триллионами параметров, — тихо разворачивается более эффективная революция. Последнее доказательство этого сдвига пришло от Zyphra, стартапа из Пало-Альто, выпустившего ZAYA1-8B — компактную модель для рассуждений, которая бросает вызов доминированию массивных облачных архитектур.

ZAYA1-8B содержит всего 8 миллиардов параметров, из которых в любой момент времени активны лишь 760 миллионов. Несмотря на скромные размеры, она демонстрирует производительность, конкурентоспособную с отраслевыми тяжеловесами, такими как GPT-5-High и DeepSeek-V3.2. Что еще более важно, она была обучена полностью на GPU AMD Instinct MI300, доказывая, что жизнеспособные альтернативы почти монополии Nvidia в области оборудования для ИИ не просто теоретические, но и практические, высокопроизводительные решения.

Архитектура эффективности

Секрет «плотности интеллекта» ZAYA1-8B кроется в проприетарной архитектуре MoE++ (Mixture-of-Experts, Смесь экспертов). В отличие от стандартных моделей Transformer, которые обрабатывают все данные единообразно, MoE направляет определенные задачи в специализированные подсети («экспертов»). Zyphra усовершенствовала этот стандартный подход тремя критически важными инновациями:

  1. Сжатое сверточное внимание (CCA): Традиционные механизмы внимания потребляют огромные объемы памяти по мере роста контекстных окон. CCA сжимает этот процесс, уменьшая размер кэша ключей и значений в 8 раз. Это позволяет модели обрабатывать рассуждения с длинным контекстом без типичных узких мест памяти.
  2. Маршрутизатор ZAYA1 MLP: Вместо использования простых линейных маршрутизаторов для решения, какой «эксперт» обрабатывает токен, Zyphra применяет дизайн многослойного перцептрона (MLP). Чтобы предотвратить нестабильность обучения — частую проблему в моделях MoE — они внедрили схему балансировки смещений, вдохновленную ПИД-регуляторами из классической теории управления.
  3. Обучаемое остаточное масштабирование: Эта техника управляет потоком данных через 40 слоев модели, предотвращая исчезновение или взрыв градиентов с незначительными вычислительными затратами.

Рассуждения встроены, а не добавлены постфактум

Ключевым отличием ZAYA1-8B является философия обучения. В большинстве моделей способности к рассуждению добавляются на этапе пост-обучения. Zyphra интегрировала рассуждения с самого начала преобучения, используя технику, называемую Answer-Preserving (AP) Trimming (Обрезка с сохранением ответа).

Аналогия: Представьте монтажника фильма, который вырезает длинную сцену. Вместо того чтобы удалять конец (решение) или начало (проблему), редактор убирает «средний» монолог. Модель учится прямой связи между сложными проблемами и их решениями, даже если полная внутренняя логика превышает ее начальные возможности памяти.

Этот подход позволяет модели осваивать сложные взаимосвязи, не будучи ограниченными начальными лимитами контекстного окна в 4K токенов, часто встречающимися на ранних этапах преобучения.

Марковский RSA: Глубокие размышления без раздувания контекста

Самый впечатляющий скачок в производительности модели обеспечивается Markovian RSA — новым методом вычислений во время тестирования (TTC). Традиционно заставить модель «думать усерднее» означает генерировать более длинные цепочки мыслей, что часто приводит к «раздуванию контекста» — потере фокуса модели по мере того, как история становится слишком длинной.

Markovian RSA разделяет глубину размышлений и размер контекста через рекурсивный процесс:
* Модель генерирует несколько параллельных следов рассуждений.
* Она извлекает только «хвосты» (последние несколько тысяч токенов) этих следов.
* Эти хвосты объединяются в новый промпт, спрашивающий модель согласовать разные подходы в превосходное решение.

Перенося вперед только существенные выводы, а не всю историю, ZAYA1-8B может рассуждать неограниченно, не переполняя свое контекстное окно. На практике это позволило модели с 760 млн активных параметров набрать 91,9% на AIME ’25 (бенчмарк олимпиады по математике для старших школьников), сократив разрыв с моделями, имеющими в 30–50 раз больше активных параметров.

Бенчмарки: Результат выше класса

Zyphra позиционирует ZAYA1-8B как решение для разработчиков, которым нужны высококлассные рассуждения без задержек и затрат, характерных для передовых моделей. Результаты убедительны:

  • Математика и логика: При включенном Markovian RSA ZAYA1-8B набрала 89,6% на HMMT ’25, превзойдя Claude 4.5 Sonnet (79,2%) и GPT-5-High (88,3%).
  • Кодирование: Достигла 69,2% на LiveCodeBench, превзойдя DeepSeek-R1-0528.
  • Следование инструкциям: Набрала 85,58 на IFEval, оставаясь конкурентоспособной с гораздо более крупными моделями, такими как Intellect-3 (106B).

Однако модель является специалистом. Она отстает от более крупных моделей в задачах, требующих большого объема знаний, таких как широкая фактическая выборка (MMLU-Pro). Это указывает на четкий тренд: хотя рассуждения можно сжать в маленькие, эффективные ядра, фактическая память все еще выигрывает от грубого масштаба параметров.

Открытый исходный код и готовность для корпоративного сектора

Zyphra выпустила ZAYA1-8B под лицензией Apache 2.0, что стало значительным стратегическим выбором. В отличие от лицензий «копилевт» (таких как GPL), требующих, чтобы производные работы оставались открытыми, Apache 2.0 является разрешительной. Предприятия могут использовать, изменять и интегрировать ZAYA1-8B в проприетарные приложения без юридических препятствий. Лицензия также включает явное предоставление патентных прав, обеспечивая юридическую безопасность для стартапов, строящих свои продукты на архитектуре Zyphra.

Примечания по развертыванию:
* Оборудование: Оптимизировано для GPU AMD Instinct MI300, но способно работать на локальном оборудовании для краевых вычислений.
* Программное обеспечение: Требует специфических форков библиотек vllm и transformers.
* Масштабирование: Zyphra рекомендует параллелизм данных (DP) в сочетании с параллелизмом экспертов (EP). Параллелизм тензоров (TP) в настоящее время не поддерживается для механизма CCA.

Почему это важно: Конец эпохи монументальных моделей?

Zyphra, основанная в 2021 году и возглавляемая генеральным директором Кришиком Путалатом и главным ученым Береном Миллиджем, движима миссией бросить вызов централизованному доминированию облачного ИИ. Получив недавнее финансирование от AMD, IBM и других, компания достигла статуса «единорога», что сигнализирует о сильной уверенности отрасли в этом децентрализованном подходе.

Выпуск ZAYA1-8B резонирует с растущим мнением в сообществе ИИ: эффективность — это следующий рубеж. По мере того как преимущества простого добавления параметров начинают стабилизироваться, модели, которые могут «думать умнее», а не «крупнее», предлагают жизнеспособный путь вперед. Для предприятий это означает, что возможности высококлассных рассуждений могут быть развернуты локально, решая критические проблемы, связанные с резидентностью данных, задержками и стоимостью.

ZAYA1-8B доказывает, что для решения сложных задач не нужны триллионы параметров — нужна правильная архитектура, правильный метод обучения и свобода выбора оборудования.