Google heeft zijn nieuwste open-weight AI-modelfamilie, Gemma 4, uitgebracht onder de Apache 2.0-licentie – een belangrijke verandering die de manier waarop bedrijven open-source AI adopteren, zou kunnen veranderen. Jarenlang hebben de Gemma-modellen van Google sterke prestaties geleverd, maar werden ze gehinderd door restrictieve licenties, waardoor veel organisaties in de richting van alternatieven zoals Mistral of Alibaba’s Qwen werden geduwd. De nieuwe Apache 2.0-licentie neemt deze barrières weg, waardoor een breder commercieel gebruik mogelijk wordt zonder juridische wrijving.
Deze timing is bijzonder opmerkelijk, omdat sommige Chinese AI-laboratoria (zoals Alibaba) de volledige open-source releases voor hun nieuwste modellen terugschroeven. Google beweegt zich in de tegenovergestelde richting en opent zijn meest capabele Gemma-release tot nu toe, terwijl het gebruik maakt van onderzoek van zijn eigen Gemini 3.
Gemma 4: modellen voor elk apparaat
Gemma 4 wordt geleverd in vier modellen, opgesplitst in werkstation- en edge-lagen:
- Werkstationlaag: Bevat een model met een dichtheid van 31B parameters en een 26B A4B Mixture-of-Experts (MoE)-model, die beide tekst-, afbeeldings- en 256K-token-contextvensters ondersteunen.
- Edge Tier: Bestaat uit de E2B- en E4B-modellen, ontworpen voor telefoons, embedded apparaten en laptops, met ondersteuning voor tekst-, beeld-, audio- en 128K-token-contextvensters.
De naamgevingsconventie is cruciaal: ‘E’ staat voor ‘effectieve parameters’, wat betekent dat het model zich als een kleiner formaat gedraagt, terwijl het technisch gezien groter is dankzij de Per-Layer Embeddings (PLE) van Google. De ‘A’ in A4B staat voor ‘actieve parameters’, wat aangeeft dat slechts een fractie van de totale parameters van het model wordt geactiveerd tijdens gevolgtrekking, wat een hoge intelligentie oplevert met lagere computerkosten.
MoE-architectuur: prestaties met efficiëntie
Het 26B A4B MoE-model maakt gebruik van 128 kleine ‘experts’, waarbij er slechts acht per token worden geactiveerd, plus één altijd actieve expert. Dit resulteert in prestaties die vergelijkbaar zijn met compacte modellen in het 27B-31B-bereik, maar met gevolgtrekkingssnelheden die vergelijkbaar zijn met die van een 4B-model. Dit betekent minder GPU’s, een lagere latentie en goedkopere gevolgtrekking per token voor productieworkloads zoals codeerassistenten of documentverwerking.
Gemma 4 maakt ook gebruik van een hybride aandachtsmechanisme dat lokale aandacht door een schuifvenster combineert met volledige globale aandacht, waardoor lange contextvensters (256K) mogelijk zijn zonder overmatig geheugengebruik.
Native multimodaliteit: visie-, audio- en functieoproepen
In tegenstelling tot eerdere open modellen waarin multimodaliteit als bijzaak werd gebruikt, integreert Gemma 4 visie-, audio- en functieaanroepen op architectonisch niveau:
- Visie: Ondersteunt afbeeldingen met variabele beeldverhoudingen met configureerbare visuele tokenbudgetten voor taken zoals OCR, documentparsering en fijnmazige analyse.
- Audio: Native audioverwerking (ASR en vertaling) op het apparaat, gecomprimeerd tot 305 miljoen parameters voor responsiviteit.
- Functieoproep: Vanaf de basis ingebouwd, waardoor agentische stromen met meerdere beurten worden geoptimaliseerd met meerdere tools en de overhead voor snelle engineering wordt verminderd.
Benchmarks en prestaties
Gemma 4 benchmarkt sterk:
- 31B Dense: 89,2% op AIME 2026 (wiskundig redeneren), 80,0% op LiveCodeBench v6 (codering) en Codeforces ELO van 2.150.
- 26 miljard A4B MoE: 88,3% op AIME 2026, 77,1% op LiveCodeBench v6 en 82,3% op GPQA Diamond (wetenschappelijke redenering).
- Edge-modellen: E4B (42,5% op AIME 2026) en E2B (37,5% op AIME 2026) presteren beter dan eerdere Gemma-versies, ondanks dat ze kleiner zijn.
Terwijl Qwen, GLM en Kimi concurreren op dit gebied van parameters, onderscheidt Gemma 4 zich door sterke prestaties te combineren met een werkelijk tolerante licentie en native multimodaliteit.
Wat is het volgende?
Google heeft zowel vooraf getrainde basismodellen als op instructies afgestemde varianten uitgebracht, waardoor verfijning op maat wordt aangemoedigd. De serverloze implementatieoptie via Cloud Run met GPU-ondersteuning zou de kosten van het inzetten van open modellen in productie aanzienlijk kunnen verlagen. Er zullen waarschijnlijk nog meer modelgroottes volgen, maar de huidige Gemma 4-familie biedt een complete open AI-oplossing die concurreert met eigen modellen. Voor bedrijven die vanwege licentieproblemen aarzelen om open AI te adopteren, heeft Google die barrière nu weggenomen.
