Googles Gemma 4: Open-Source-KI holt endlich zu kommerziellen Modellen auf

19

Google hat seine neueste offene KI-Modellfamilie, Gemma 4, unter der Apache 2.0-Lizenz veröffentlicht – ein bedeutender Wandel, der die Art und Weise, wie Unternehmen Open-Source-KI einführen, verändern könnte. Seit Jahren bieten die Gemma-Modelle von Google eine starke Leistung, wurden jedoch durch restriktive Lizenzen beeinträchtigt, was viele Unternehmen dazu drängte, Alternativen wie Mistral oder Alibabas Qwen zu verwenden. Die neue Apache 2.0-Lizenz beseitigt diese Hindernisse und ermöglicht eine breitere kommerzielle Nutzung ohne rechtliche Reibung.

Dieser Zeitpunkt ist besonders bemerkenswert, da einige chinesische KI-Labore (wie Alibaba) die vollständigen Open-Source-Veröffentlichungen ihrer neuesten Modelle reduzieren. Google geht in die entgegengesetzte Richtung und veröffentlicht seine bisher leistungsfähigste Gemma-Version und nutzt dabei die Forschungsergebnisse seines proprietären Gemini 3.

Gemma 4: Modelle für jedes Gerät

Gemma 4 ist in vier Modellen erhältlich, aufgeteilt in Workstation- und Edge-Stufen:

  • Workstation-Stufe: Enthält ein 31B-Parameter-dichtes Modell und ein 26B A4B Mixture-of-Experts (MoE)-Modell, die beide Text-, Bild- und 256K-Token-Kontextfenster unterstützen.
  • Edge Tier: Besteht aus den Modellen E2B und E4B, konzipiert für Telefone, eingebettete Geräte und Laptops, mit Unterstützung für Text-, Bild-, Audio- und 128K-Token-Kontextfenster.

Die Namenskonvention ist von entscheidender Bedeutung: „E“ steht für „effektive Parameter“, was bedeutet, dass sich das Modell wie eine kleinere Größe verhält, während es aufgrund von Googles Per-Layer Embeddings (PLE) technisch gesehen größer ist. Das „A“ in A4B steht für „aktive Parameter“ und bedeutet, dass nur ein Bruchteil der Gesamtparameter des Modells während der Inferenz aktiviert wird, was eine hohe Intelligenz bei geringeren Rechenkosten ermöglicht.

MoE-Architektur: Leistung mit Effizienz

Das 26B A4B MoE-Modell verwendet 128 kleine „Experten“, wobei nur acht pro Token plus ein ständig verfügbarer Experte aktiviert werden. Dies führt zu einer Leistung, die mit dichten Modellen im 27B–31B-Bereich vergleichbar ist, jedoch mit ähnlichen Inferenzgeschwindigkeiten wie ein 4B-Modell. Dies bedeutet weniger GPUs, geringere Latenz und günstigere Inferenz pro Token für Produktionsarbeitslasten wie Codierungsassistenten oder Dokumentenverarbeitung.

Gemma 4 verwendet außerdem einen hybriden Aufmerksamkeitsmechanismus, der die Aufmerksamkeit des lokalen Schiebefensters mit der vollständigen globalen Aufmerksamkeit kombiniert und so lange Kontextfenster (256 KB) ohne übermäßigen Speicherverbrauch ermöglicht.

Native Multimodalität: Vision, Audio und Funktionsaufruf

Im Gegensatz zu früheren offenen Modellen, die nachträglich auf Multimodalität setzten, integriert Gemma 4 Vision, Audio und Funktionsaufrufe auf architektonischer Ebene:

  • Vision: Unterstützt Bilder mit variablem Seitenverhältnis und konfigurierbaren visuellen Token-Budgets für Aufgaben wie OCR, Dokumentenanalyse und feinkörnige Analyse.
  • Audio: Native Audioverarbeitung (ASR und Übersetzung) auf dem Gerät, zur Gewährleistung der Reaktionsfähigkeit auf 305 Millionen Parameter komprimiert.
  • Funktionsaufruf: Von Grund auf integriert, optimiert Multi-Turn-Agentenabläufe mit mehreren Tools und reduziert den zeitnahen Engineering-Aufwand.

Benchmarks und Leistung

Gemma 4-Benchmarks stark:

  • 31B Dense: 89,2 % auf AIME 2026 (mathematisches Denken), 80,0 % auf LiveCodeBench v6 (Codierung) und Codeforces ELO von 2.150.
  • 26B A4B MoE: 88,3 % bei AIME 2026, 77,1 % bei LiveCodeBench v6 und 82,3 % bei GPQA Diamond (wissenschaftliche Begründung).
  • Edge-Modelle: E4B (42,5 % auf AIME 2026) und E2B (37,5 % auf AIME 2026) übertreffen frühere Gemma-Versionen, obwohl sie kleiner sind.

Während Qwen, GLM und Kimi in diesem Parameterbereich konkurrieren, zeichnet sich Gemma 4 durch die Kombination starker Leistung mit einer wirklich freizügigen Lizenz und nativer Multimodalität aus.

Was kommt als nächstes?

Google hat sowohl vorab trainierte Basismodelle als auch auf Anweisungen abgestimmte Varianten veröffentlicht und damit eine individuelle Feinabstimmung gefördert. Die serverlose Bereitstellungsoption über Cloud Run mit GPU-Unterstützung könnte die Kosten für die Bereitstellung offener Modelle in der Produktion erheblich senken. Weitere Modellgrößen werden wahrscheinlich folgen, aber die aktuelle Gemma 4-Familie bietet eine vollständige offene KI-Lösung, die mit proprietären Modellen konkurrenzfähig ist. Für Unternehmen, die aus Lizenzgründen zögern, offene KI einzuführen, hat Google diese Hürde nun beseitigt.