Google a publié sa nouvelle famille de modèles d’IA open source, Gemma 4, sous la licence Apache 2.0, un changement important qui pourrait remodeler la façon dont les entreprises adoptent l’IA open source. Pendant des années, les modèles Gemma de Google ont offert d’excellentes performances, mais ont été freinés par des licences restrictives, poussant de nombreuses organisations vers des alternatives comme Mistral ou Qwen d’Alibaba. La nouvelle licence Apache 2.0 supprime ces barrières, permettant une utilisation commerciale plus large sans frictions juridiques.
Ce timing est particulièrement remarquable, car certains laboratoires d’IA chinois (comme Alibaba) réduisent les versions entièrement open source de leurs derniers modèles. Google va dans la direction opposée, en ouvrant sa version Gemma la plus performante à ce jour, tout en tirant parti des recherches de son Gemini 3 exclusif.
Gemma 4 : des modèles pour chaque appareil
Gemma 4 est disponible en quatre modèles, répartis en niveaux de poste de travail et de périphérie :
- Niveau Poste de travail : Comprend un modèle dense de 31 B paramètres et un modèle de mélange d’experts (MoE) 26B A4B, tous deux prenant en charge les fenêtres contextuelles de texte, d’image et de 256 000 jetons.
- Edge Tier : Comprend les modèles E2B et E4B, conçus pour les téléphones, les appareils intégrés et les ordinateurs portables, avec prise en charge des fenêtres contextuelles de texte, d’image, d’audio et de 128 000 jetons.
La convention de dénomination est cruciale : « E » désigne les « paramètres effectifs », ce qui signifie que le modèle se comporte comme une taille plus petite tout en étant techniquement plus grand en raison des intégrations par couche (PLE) de Google. Le « A » dans A4B signifie « paramètres actifs », indiquant que seule une fraction du total des paramètres du modèle s’active pendant l’inférence, offrant ainsi une intelligence élevée avec des coûts de calcul inférieurs.
Architecture MoE : performances et efficacité
Le modèle 26B A4B MoE utilise 128 petits « experts », n’en activant que huit par jeton plus un expert toujours actif. Cela se traduit par des performances comparables aux modèles denses de la gamme 27B-31B, mais avec des vitesses d’inférence similaires à celles d’un modèle 4B. Cela signifie moins de GPU, une latence plus faible et une inférence par jeton moins chère pour les charges de travail de production telles que les assistants de codage ou le traitement de documents.
Gemma 4 utilise également un mécanisme d’attention hybride qui combine l’attention locale par fenêtre glissante avec une attention globale complète, permettant de longues fenêtres contextuelles (256 Ko) sans consommation excessive de mémoire.
Multimodalité native : vision, audio et appel de fonctions
Contrairement aux modèles ouverts précédents qui s’appuyaient sur la multimodalité après coup, Gemma 4 intègre la vision, l’audio et les appels de fonctions au niveau architectural :
- Vision : Prend en charge les images à rapport hauteur/largeur variable avec des budgets de jetons visuels configurables pour des tâches telles que l’OCR, l’analyse de documents et l’analyse fine.
- Audio : Traitement audio natif (ASR et traduction) sur l’appareil, compressé à 305 millions de paramètres pour plus de réactivité.
- Appel de fonction : Intégré à partir de zéro, optimisant les flux agents multi-tours avec plusieurs outils et réduisant les frais d’ingénierie rapides.
Benchmarks et performances
Gemma 4 se démarque fortement :
- 31B Dense : 89,2 % sur AIME 2026 (raisonnement mathématique), 80,0 % sur LiveCodeBench v6 (codage) et Codeforces ELO de 2 150.
- 26B A4B MoE : 88,3 % sur AIME 2026, 77,1 % sur LiveCodeBench v6 et 82,3 % sur GPQA Diamond (raisonnement scientifique).
- Modèles Edge : E4B (42,5 % sur AIME 2026) et E2B (37,5 % sur AIME 2026) surpassent les versions précédentes de Gemma bien qu’elles soient plus petites.
Alors que Qwen, GLM et Kimi rivalisent sur cette gamme de paramètres, Gemma 4 se démarque en combinant de fortes performances avec une licence véritablement permissive et une multimodalité native.
Quelle est la prochaine étape ?
Google a publié à la fois des modèles de base pré-entraînés et des variantes optimisées pour les instructions, encourageant un réglage personnalisé. L’option de déploiement sans serveur via Cloud Run avec prise en charge GPU pourrait réduire considérablement le coût de déploiement de modèles ouverts en production. Des tailles de modèles supplémentaires suivront probablement, mais la famille Gemma 4 actuelle offre une solution d’IA ouverte complète compétitive par rapport aux modèles propriétaires. Pour les entreprises qui hésitent à adopter l’IA ouverte en raison de problèmes de licence, Google a désormais supprimé cet obstacle.





























