Google выпустила свою новейшую линейку моделей ИИ с открытыми весами, Gemma 4, под лицензией Apache 2.0 — значительный шаг, который может изменить то, как компании внедряют ИИ с открытым исходным кодом. На протяжении многих лет модели Google Gemma демонстрировали высокую производительность, но были ограничены строгой лицензией, что подталкивало многие организации к альтернативам, таким как Mistral или Qwen от Alibaba. Новая лицензия Apache 2.0 устраняет эти барьеры, обеспечивая более широкое коммерческое использование без юридических проблем.
Этот момент особенно примечателен, поскольку некоторые китайские лаборатории ИИ (например, Alibaba) сокращают количество полных релизов с открытым исходным кодом для своих последних моделей. Google движется в противоположном направлении, открывая свой самый мощный релиз Gemma на сегодняшний день, используя исследования из своей запатентованной Gemini 3.
Gemma 4: Модели для Любого Устройства
Gemma 4 представлена в четырех моделях, разделенных на уровни для рабочих станций и периферийных устройств:
- Уровень для рабочих станций: Включает в себя плотную модель с 31 миллиардом параметров и MoE-модель (Mixture-of-Experts) A4B с 26 миллиардами параметров, обе поддерживают текст, изображения и контекстные окна размером 256K токенов.
- Уровень для периферийных устройств: Состоит из моделей E2B и E4B, предназначенных для телефонов, встроенных устройств и ноутбуков, с поддержкой текста, изображений, аудио и контекстных окон размером 128K токенов.
Номенклатура имеет решающее значение: «E» обозначает «эффективные параметры», что означает, что модель ведет себя как меньшего размера, хотя технически она больше из-за Per-Layer Embeddings (PLE) от Google. «A» в A4B означает «активные параметры», указывая на то, что во время вывода активируется только часть общих параметров модели, обеспечивая высокую производительность при более низких вычислительных затратах.
MoE-архитектура: Производительность с Эффективностью
MoE-модель A4B с 26 миллиардами параметров использует 128 небольших «экспертов», активируя только восемь на токен плюс одного эксперта, который всегда включен. Это обеспечивает производительность, сопоставимую с плотными моделями в диапазоне 27–31 миллиардов параметров, но со скоростью вывода, аналогичной модели в 4 миллиарда параметров. Это означает меньшее количество графических процессоров, меньшую задержку и более дешевый вывод на токен для производственных рабочих нагрузок, таких как помощники по кодированию или обработка документов.
Gemma 4 также использует гибридный механизм внимания, который сочетает в себе локальное скользящее окно внимания с полным глобальным вниманием, обеспечивая длинные контекстные окна (256K) без чрезмерного потребления памяти.
Встроенная Мультимодальность: Зрение, Аудио и Вызов Функций
В отличие от предыдущих открытых моделей, которые добавляли мультимодальность как заглушку, Gemma 4 интегрирует зрение, аудио и вызов функций на архитектурном уровне:
- Зрение: Поддерживает изображения с переменным соотношением сторон с настраиваемыми бюджетами визуальных токенов для таких задач, как OCR, разбор документов и детальный анализ.
- Аудио: Встроенная обработка аудио (ASR и перевод) на устройстве, сжатая до 305 миллионов параметров для быстродействия.
- Вызов функций: Встроена с нуля, оптимизируя многоходовые агентные потоки с использованием нескольких инструментов и уменьшая накладные расходы на проектирование подсказок.
Сравнение и Производительность
Gemma 4 демонстрирует высокие результаты в тестах:
- 31B Dense: 89.2% на AIME 2026 (математическое мышление), 80.0% на LiveCodeBench v6 (кодирование) и Codeforces ELO 2,150.
- 26B A4B MoE: 88.3% на AIME 2026, 77.1% на LiveCodeBench v6 и 82.3% на GPQA Diamond (научное мышление).
- Периферийные модели: E4B (42.5% на AIME 2026) и E2B (37.5% на AIME 2026) превосходят предыдущие версии Gemma, несмотря на меньший размер.
В то время как Qwen, GLM и Kimi конкурируют в этом диапазоне параметров, Gemma 4 выделяется благодаря сочетанию высокой производительности, действительно либеральной лицензии и встроенной мультимодальности.
Что Дальше?
Google выпустила как предварительно обученные базовые модели, так и модели, настроенные на инструкции, поощряя индивидуальную тонкую настройку. Возможность развертывания без сервера через Cloud Run с поддержкой графических процессоров может значительно снизить стоимость развертывания открытых моделей в производственной среде. Вероятно, последуют дополнительные размеры моделей, но текущая линейка Gemma 4 предлагает полноценное решение с открытым исходным кодом, конкурентоспособное с запатентованными моделями. Для предприятий, которые не решаются внедрять ИИ с открытым исходным кодом из-за проблем с лицензированием, Google теперь устранила этот барьер.





























