Google випустив свою нову лінійку відкритих моделей штучного інтелекту, Gemma 4, за ліцензією Apache 2.0 — важливий крок, який може змінити спосіб впровадження компаній штучного інтелекту з відкритим кодом. Протягом багатьох років моделі Gemma від Google демонстрували високу ефективність, але були обмежені суворою ліцензією, що штовхає багато організацій до альтернатив, таких як Mistral або Qwen від Alibaba. Нова ліцензія Apache 2.0 усуває ці перешкоди, дозволяючи ширше комерційне використання без юридичних проблем.
Цей момент особливо примітний, оскільки деякі китайські лабораторії штучного інтелекту (наприклад, Alibaba) скорочують кількість випусків із повним відкритим кодом для своїх останніх моделей. Google рухається у протилежному напрямку, випускаючи найпотужніший випуск Gemma на сьогоднішній день, використовуючи дослідження своєї патентованої Gemini 3.
Gemma 4: Моделі для будь-яких пристроїв
Gemma 4 поставляється в чотирьох моделях, розділених на робочі станції та периферійні рівні:
- Рівень робочої станції: включає щільну модель із 31 мільярдом параметрів і модель A4B MoE (Mixture-of-Experts) із 26 мільярдами параметрів, які підтримують текст, зображення та контекстні вікна з 256 тис. токенів.
- Периферійний рівень: складається з моделей E2B і E4B, розроблених для телефонів, вбудованих пристроїв і ноутбуків, які підтримують текст, зображення, аудіо та контекстні вікна 128K маркерів.
Номенклатура має вирішальне значення: «E» означає «ефективні параметри», що означає, що модель поводиться як менша модель, навіть якщо вона технічно більша завдяки системі Google Per-Layer Embeddings (PLE). Буква «A» в A4B означає «активні параметри», що вказує на те, що під час логічного висновку активується лише підмножина загальних параметрів моделі, що забезпечує високу продуктивність за менших обчислювальних витрат.
Архітектура MoE: продуктивність з ефективністю
Модель A4B MoE із 26 мільярдами параметрів використовує 128 маленьких «експертів», активуючи лише вісім на токен, плюс одного експерта, який завжди ввімкнено. Це забезпечує продуктивність, порівнянну з щільними моделями в діапазоні 27–31 мільярдів параметрів, але зі швидкістю виведення, подібною до моделі з 4 мільярдами параметрів. Це означає менше графічних процесорів, нижчу затримку та дешевший вихід на токен для виробничих робочих навантажень, таких як помічники кодування чи обробка документів.
Gemma 4 також використовує гібридний механізм уваги, який поєднує локальне ковзаюче вікно уваги з повною глобальною увагою, забезпечуючи довгі контекстні вікна (256K) без надмірного споживання пам’яті.
Вбудована мультимодальність: функції зору, звуку та виклику
На відміну від попередніх відкритих моделей, які додавали мультимодальність як заповнювач, Gemma 4 інтегрує візуалізацію, аудіо та виклик функцій на архітектурному рівні:
- Зір: підтримує зображення зі змінним співвідношенням сторін із настроюваними бюджетами візуальних токенів для таких завдань, як оптичне розпізнавання символів, аналіз документів і детальний аналіз.
- Аудіо: Вбудована обробка звуку на пристрої (ASR і переклад), стиснута до 305 мільйонів параметрів для продуктивності.
- Виклики функцій: Створено з нуля, оптимізуючи багатопрохідні потоки агентів за допомогою кількох інструментів і зменшуючи накладні витрати на розробку спливаючої підказки.
Порівняння та продуктивність
Gemma 4 демонструє високі результати в тестах:
- 31B Dense: 89,2% на AIME 2026 (Математичне міркування), 80,0% на LiveCodeBench v6 (Кодування) і Codeforces ELO 2150.
- 26B A4B MoE: 88,3% на AIME 2026, 77,1% на LiveCodeBench v6 і 82,3% на GPQA Diamond (Scientific Reasoning).
- Моделі периферійних пристроїв: E4B (42,5% на AIME 2026) і E2B (37,5% на AIME 2026) перевершують попередні версії Gemma, незважаючи на їх менший розмір.
У той час як Qwen, GLM і Kimi конкурують у цьому діапазоні параметрів, Gemma 4 виділяється завдяки поєднанню високої продуктивності, справді ліберальної ліцензії та вбудованої мультимодальності.
Що далі?
Google випустив як попередньо навчені базові моделі, так і моделі з інструкціями, заохочуючи індивідуальне тонке налаштування. Можливість безсерверного розгортання через Cloud Run із підтримкою GPU може значно знизити вартість розгортання відкритих моделей у виробництві. Ймовірно, з’являться додаткові розміри моделей, але поточна лінійка Gemma 4 пропонує повне рішення з відкритим вихідним кодом, яке конкурує з пропрієтарними моделями. Для компаній, які не наважуються використовувати штучний інтелект з відкритим кодом через проблеми з ліцензуванням, Google тепер усунув цей бар’єр.




























































