Останні новини та статті

ZAYA1-8B: як компактна модель GPU AMD кидає виклик таким гігантам, як GPT-5

09.05.2026

Поки індустрія штучного інтелекту захоплена гонкою озброєнь за принципом ” чим більше, тим краще» — на чолі з OpenAI і Anthropic, які прагнуть до моделей з трильйонами параметрів, — тихо розгортається більш ефективна революція. Останній доказ цього зрушення прийшов від Zyphra, стартапу з Пало-Альто, який випустив * * ZAYA1-8b * * – компактну модель для міркувань, яка кидає виклик домінуванню масивних хмарних архітектур.

ZAYA1-8b містить всього 8 мільярдів параметрів, з яких в будь-який момент часу активні лише 760 мільйонів. Незважаючи на скромні розміри, вона демонструє продуктивність, конкурентоспроможну з галузевими важковаговиками, такими як GPT-5-High і DeepSeek-V3.2. Що ще більш важливо, вона була навчена повністю на * * GPU AMD Instinct MI300**, доводячи, що життєздатні альтернативи майже монополії Nvidia в області обладнання для ШІ не просто теоретичні, а й практичні, високопродуктивні рішення.

Архітектура ефективності

Секрет “щільності інтелекту” ZAYA1-8b криється в пропрієтарній архітектурі MoE++ (Mixture-of-Experts, суміш експертів). На відміну від стандартних моделей Transformer, які обробляють всі дані рівномірно, MoE спрямовує певні завдання до спеціалізованих підмереж («експертів»). Zyphra вдосконалила цей стандартний підхід трьома критично важливими інноваціями:

** Стиснута згорткова увага (CCA): традиційні механізми уваги споживають величезні обсяги пам’яті в міру зростання контекстних вікон. CCA стискає цей процес, зменшуючи розмір кешу ключів та значень у * * 8 разів. Це дозволяє моделі обробляти міркування з довгим контекстом без типових вузьких місць пам’яті.
** Маршрутизатор ZAYA1 MLP: * * замість того, щоб використовувати прості лінійні маршрутизатори, щоб вирішити, який «експерт» обробляє маркер, Zyphra застосовує Багатошаровий дизайн перцептрона (MLP). Щоб запобігти нестабільності навчання-поширеній проблемі в моделях MoE-вони впровадили схему балансування зсувів, натхненну pid-регуляторами з класичної теорії управління.
** Навчальне залишкове масштабування: * * ця техніка керує потоком даних через 40 шарів моделі, запобігаючи зникненню або вибуху градієнтів з незначними обчислювальними витратами.

Міркування вбудовані, а не додані постфактум

Ключовою відмінністю ZAYA1-8b є філософія навчання. У більшості моделей здібності до міркування додаються на етапі пост-навчання. Zyphra інтегрувала міркування з самого початку переобладнання, використовуючи техніку, яка називається Answer-Preserving (AP) Trimming (обрізка із збереженням відповіді).

Аналогія: * * уявіть монтажника фільму, який вирізає довгу сцену. Замість того щоб видаляти кінець (рішення) або початок (проблему), редактор прибирає «середній» монолог. Модель вчиться прямого зв’язку між складними проблемами і їх рішеннями, навіть якщо повна внутрішня логіка перевищує її початкові можливості пам’яті.

Цей підхід дозволяє моделі освоювати складні взаємозв’язки, не будучи обмеженими початковими лімітами контекстного вікна в 4K токенов, часто зустрічаються на ранніх етапах преобучения.

Марковський RSA: глибокі роздуми без роздуття контексту

Найбільш вражаючий стрибок у продуктивності моделі забезпечується * * Markovian RSA * * – новим методом обчислень під час тестування (TTC). Традиційно змусити модель “мислити важче «означає генерувати довші ланцюжки думок, що часто призводить до» роздуття контексту” — втрати фокусу моделі, оскільки історія стає занадто довгою.

Markovian RSA поділяє глибину роздумів і розмір контексту через рекурсивний процес:
* Модель генерує кілька паралельних слідів міркувань.
* Вона витягує тільки**» хвости ” * * (останні кілька тисяч токенов) цих слідів.
* Ці хвости об’єднуються в новий промпт, який запитує модель узгодити різні підходи в чудове рішення.

Переносячи вперед тільки істотні висновки, а не всю історію, ZAYA1-8b може міркувати необмежено, не переповнюючи своє контекстне вікно. На практиці це дозволило моделі з 760 млн активних параметрів набрати 91,9% на AIME ’25 (бенчмарк олімпіади з математики для старших школярів), скоротивши розрив з моделями, що мають в 30-50 разів більше активних параметрів.

Бенчмарки: Результат вище класу

Zyphra позиціонує ZAYA1-8b як рішення для розробників, яким потрібні висококласні міркування без затримок і витрат, характерних для передових моделей. Результати переконливі:

- - Математика та логіка: з увімкненим Markovian RSA ZAYA1-8b набрав 89,6% на HMMT ’25, перевершивши Claude 4.5 Sonnet (79,2%) та GPT-5-High** (88,3%).
- - Кодування: досягла 69,2% на LiveCodeBench, перевершивши DeepSeek-R1-0528**.
- - Дотримання інструкцій: набрав 85,58 на IFEval**, залишаючись конкурентоспроможним із набагато більшими моделями, такими як Intellect-3 (106b).

Однак модель є спеціалістом. Вона відстає від більших моделей у завданнях, що вимагають великого обсягу знань, таких як широка фактична вибірка (MMLU-Pro). Це вказує на чітку тенденцію: хоча міркування можна стиснути у маленькі, ефективні ядра, фактична пам’ять все ще виграє від грубого масштабу параметрів.

Відкритий код і готовність для корпоративного сектора

Zyphra випустила ZAYA1-8b під ліцензією Apache 2.0, що стало значним стратегічним вибором. На відміну від ліцензій «копілевт» (таких як GPL), які вимагають, щоб похідні роботи залишалися відкритими, Apache 2.0 є дозвільною. Підприємства можуть використовувати, змінювати та інтегрувати ZAYA1-8b у власні програми без юридичних перешкод. Ліцензія також включає явне надання патентних прав, забезпечуючи юридичну безпеку для стартапів, які будують свою продукцію на архітектурі Zyphra.

** Примітки щодо розгортання:**
* * * Обладнання: * * Оптимізовано для GPU AMD Instinct MI300, але здатне працювати на локальному обладнанні для крайових обчислень.
* * * Програмне забезпечення: * * вимагає специфічних форків бібліотек ‘vllm’ і`transformers’.
* * * Масштабування: * * Zyphra рекомендує паралелізм даних (DP) у поєднанні з паралелізмом експертів (EP). Паралельність тензорів (TP) в даний час не підтримується для механізму CCA.

Чому це важливо: кінець епохи монументальних моделей?

Заснована в 2021 році і очолювана генеральним директором Крішиком Путалатом та головним вченим Береном Мілліджем, Zyphra керується місією кинути виклик централізованому домінуванню хмарного ШІ. Отримавши нещодавнє фінансування від AMD, IBM та інших, компанія досягла статусу «єдинорога», що сигналізує про сильну впевненість галузі в цьому децентралізованому підході.

Випуск ZAYA1 — 8b резонує зі зростаючою думкою в спільноті ШІ: ефективність-це наступний рубіж. Оскільки переваги простого додавання параметрів починають стабілізуватися, моделі, які можуть «мислити розумніше», а не «більші», пропонують життєздатний шлях вперед. Для підприємств це означає, що можливості висококласних міркувань можуть бути розгорнуті локально, вирішуючи критичні проблеми, пов’язані з резидентністю даних, затримками і вартістю.

ZAYA1 — 8b доводить, що для вирішення складних завдань не потрібні трильйони параметрів-потрібна правильна Архітектура, правильний метод навчання і свобода вибору обладнання.

Loading…

Here are the results for the search: "{{td_search_query}}"

No results!

{{post_title}}

Архітектура ефективності

Міркування вбудовані, а не додані постфактум

Марковський RSA: глибокі роздуми без роздуття контексту

Бенчмарки: Результат вище класу

Відкритий код і готовність для корпоративного сектора

Чому це важливо: кінець епохи монументальних моделей?

СТАТТІ ПО ТЕМІ

Цифрове спотворення: як соцмережі та ІІ ставлять під загрозу навчання історії...

Розбір головоломки NYT Connections #1056: Від міністерств до прихованих назв газет

Bose отказывается от проприетарного приложения в пользу простого потокового аудио