Google wypuściło najnowszą linię otwartych modeli sztucznej inteligencji, Gemma 4, na licencji Apache 2.0 – co jest znaczącym posunięciem, które może zmienić sposób, w jaki firmy wdrażają sztuczną inteligencję typu open source. Przez lata modele Google Gemma wykazywały się dobrą wydajnością, ale były ograniczone rygorystyczną licencją, co popchnęło wiele organizacji w kierunku alternatywnych rozwiązań, takich jak Mistral czy Qwen Alibaba. Nowa licencja Apache 2.0 usuwa te bariery, umożliwiając szersze wykorzystanie komercyjne bez problemów prawnych.
Ten punkt jest szczególnie godny uwagi, ponieważ niektóre chińskie laboratoria AI (takie jak Alibaba) zmniejszają liczbę pełnych wydań open source dla swoich najnowszych modeli. Google podąża w przeciwnym kierunku, wprowadzając najpotężniejszą jak dotąd wersję Gemmy, wykorzystując badania przeprowadzone na własnym Gemini 3.
Gemma 4: modele na dowolne urządzenie
Gemma 4 jest dostępna w czterech modelach, podzielonych na poziomy stacji roboczych i urządzeń peryferyjnych:
- Warstwa stacji roboczej: Zawiera gęsty model z 31 miliardami parametrów i model A4B MoE (Mixture-of-Experts) z 26 miliardami parametrów, oba obsługujące tekst, obrazy i okna kontekstowe zawierające 256 tys. tokenów.
- Poziom urządzeń peryferyjnych: Obejmuje modele E2B i E4B przeznaczone dla telefonów, urządzeń wbudowanych i laptopów, obsługujące tekst, obrazy, dźwięk i okna kontekstowe o pojemności 128 tys. tokenów.
Nazewnictwo ma kluczowe znaczenie: „E” oznacza „efektywne parametry”, co oznacza, że model zachowuje się jak mniejszy model, mimo że jest technicznie większy dzięki technologii Google Per-Layer Embeddings (PLE). Litera „A” w A4B oznacza „parametry aktywne”, wskazując, że podczas wnioskowania aktywowany jest tylko podzbiór ogólnych parametrów modelu, co zapewnia wysoką wydajność przy niższych kosztach obliczeniowych.
Architektura MoE: wydajność i wydajność
Model A4B MoE z 26 miliardami parametrów wykorzystuje 128 małych „ekspertów”, aktywujących tylko ośmiu na token, plus jeden ekspert, który jest zawsze włączony. This provides performance comparable to dense models in the 27–31 billion parameter range, but with inference speed similar to the 4 billion parameter model. Oznacza to mniej procesorów graficznych, mniejsze opóźnienia i tańsze dane wyjściowe na token w przypadku obciążeń produkcyjnych, takich jak asystenci kodowania lub przetwarzanie dokumentów.
Gemma 4 wykorzystuje także hybrydowy mechanizm uwagi, który łączy lokalne przesuwane okno uwagi z pełną uwagą globalną, zapewniając długie okna kontekstowe (256 KB) bez nadmiernego zużycia pamięci.
Wbudowana multimodalność: funkcje obrazu, dźwięku i połączeń
W przeciwieństwie do poprzednich otwartych modeli, które dodały multimodalność jako element zastępczy, Gemma 4 integruje wizję, dźwięk i wywoływanie funkcji na poziomie architektonicznym:
- Vision: Obsługuje obrazy o zmiennym współczynniku proporcji z dostosowywanymi budżetami tokenów wizualnych do zadań takich jak OCR, analizowanie dokumentów i szczegółowa analiza.
- Dźwięk: Wbudowane przetwarzanie dźwięku w urządzeniu (ASR i tłumaczenie), skompresowane do 305 milionów parametrów w celu zapewnienia wydajności.
- Wywołania funkcji: Zbudowane od podstaw, optymalizujące wieloprzebiegowe przepływy agentów przy użyciu wielu narzędzi i redukujące obciążenie związane z projektowaniem podpowiedzi.
Porównanie i wydajność
Gemma 4 wykazuje wysokie wyniki w testach:
- 31B Dense: 89,2% w przypadku AIME 2026 (wnioskowanie matematyczne), 80,0% w przypadku LiveCodeBench v6 (kodowanie) i Codeforces ELO 2150.
- 26B A4B MoE: 88,3% w przypadku AIME 2026, 77,1% w przypadku LiveCodeBench v6 i 82,3% w przypadku GPQA Diamond (rozumowanie naukowe).
- Modele peryferyjne: E4B (42,5% w AIME 2026) i E2B (37,5% w AIME 2026) są lepsze od poprzednich wersji Gemmy, pomimo ich mniejszych rozmiarów.
Podczas gdy Qwen, GLM i Kimi konkurują w tym zakresie parametrów, Gemma 4 wyróżnia się połączeniem wysokiej wydajności, prawdziwie liberalnej licencji i wbudowanej multimodalności.
Co dalej?
Firma Google udostępniła zarówno wstępnie wytrenowane modele podstawowe, jak i modele dostrojone zgodnie z instrukcjami, zachęcając do indywidualnego dostrajania. Możliwość wdrażania bezserwerowego za pośrednictwem Cloud Run z obsługą procesora graficznego może znacznie obniżyć koszty wdrażania otwartych modeli w środowisku produkcyjnym. Prawdopodobnie pojawią się modele o kolejnych rozmiarach, ale obecna linia Gemma 4 oferuje kompletne rozwiązanie typu open source, które jest konkurencyjne w stosunku do modeli zastrzeżonych. W przypadku firm, które wahają się przed przyjęciem sztucznej inteligencji typu open source ze względu na problemy licencyjne, Google usunął tę barierę.
