Gemma 4 di Google: l’intelligenza artificiale open source finalmente raggiunge i modelli commerciali

23

Google ha rilasciato la sua nuova famiglia di modelli di intelligenza artificiale open-weight, Gemma 4, sotto la licenza Apache 2.0: un cambiamento significativo che potrebbe rimodellare il modo in cui le aziende adottano l’intelligenza artificiale open source. Per anni, i modelli Gemma di Google hanno offerto ottime prestazioni, ma sono stati ostacolati da licenze restrittive, spingendo molte organizzazioni verso alternative come Mistral o Qwen di Alibaba. La nuova licenza Apache 2.0 rimuove queste barriere, consentendo un utilizzo commerciale più ampio senza attriti legali.

Questa tempistica è particolarmente degna di nota, poiché alcuni laboratori di intelligenza artificiale cinesi (come Alibaba) stanno ridimensionando le versioni completamente open source per i loro ultimi modelli. Google si sta muovendo nella direzione opposta, lanciando la sua versione Gemma più potente di sempre, sfruttando la ricerca della sua piattaforma proprietaria Gemini 3.

Gemma 4: modelli per ogni dispositivo

Gemma 4 è disponibile in quattro modelli, suddivisi in livelli workstation ed edge:

  • Livello workstation: include un modello ad alta densità di parametri da 31B e un modello MoE (Mixture-of-Experts) da 26B A4B, che supportano entrambi finestre di contesto di testo, immagini e token da 256K.
  • Livello Edge: è costituito dai modelli E2B ed E4B, progettati per telefoni, dispositivi incorporati e laptop, con supporto per finestre di contesto di testo, immagini, audio e token da 128 KB.

La convenzione di denominazione è fondamentale: “E” denota “parametri effettivi”, il che significa che il modello si comporta come una dimensione più piccola mentre tecnicamente è più grande a causa dei Per-Layer Embeddings (PLE) di Google. La “A” in A4B sta per “parametri attivi”, a indicare che solo una frazione dei parametri totali del modello si attiva durante l’inferenza, offrendo un’intelligenza elevata con costi di elaborazione inferiori.

Architettura del MoE: prestazioni ed efficienza

Il modello 26B A4B MoE utilizza 128 piccoli “esperti”, attivandone solo otto per token più un esperto sempre attivo. Ciò si traduce in prestazioni paragonabili ai modelli densi nell’intervallo 27B-31B, ma con velocità di inferenza simili a un modello 4B. Ciò significa meno GPU, latenza inferiore e inferenza per token più economica per carichi di lavoro di produzione come assistenti di codifica o elaborazione di documenti.

Gemma 4 utilizza anche un meccanismo di attenzione ibrido che combina l’attenzione della finestra scorrevole locale con l’attenzione globale completa, consentendo finestre di contesto lunghe (256 KB) senza un consumo eccessivo di memoria.

Multimodalità nativa: visione, audio e chiamata di funzioni

A differenza dei precedenti modelli aperti che si basavano sulla multimodalità come ripensamento, Gemma 4 integra visione, audio e chiamata di funzioni a livello architetturale:

  • Visione: supporta immagini con proporzioni variabili con budget di token visivi configurabili per attività come OCR, analisi di documenti e analisi dettagliata.
  • Audio: Elaborazione audio nativa (ASR e traduzione) sul dispositivo, compressa a 305 milioni di parametri per la reattività.
  • Function Calling: Integrato da zero, ottimizza i flussi di agenti multi-turno con più strumenti e riduce i costi di progettazione tempestiva.

Benchmark e prestazioni

Gemma 4 si distingue fortemente:

  • 31B Denso: 89,2% su AIME 2026 (ragionamento matematico), 80,0% su LiveCodeBench v6 (codifica) e Codeforces ELO di 2.150.
  • 26B A4B MoE: 88,3% su AIME 2026, 77,1% su LiveCodeBench v6 e 82,3% su GPQA Diamond (ragionamento scientifico).
  • Modelli Edge: E4B (42,5% su AIME 2026) ed E2B (37,5% su AIME 2026) superano le precedenti versioni Gemma nonostante siano più piccole.

Mentre Qwen, GLM e Kimi competono in questo intervallo di parametri, Gemma 4 si distingue combinando ottime prestazioni con una licenza veramente permissiva e multimodalità nativa.

Qual è il prossimo passo?

Google ha rilasciato sia modelli base pre-addestrati che varianti ottimizzate per le istruzioni, incoraggiando la messa a punto personalizzata. L’opzione di distribuzione serverless tramite Cloud Run con supporto GPU potrebbe ridurre significativamente il costo di distribuzione di modelli aperti in produzione. È probabile che seguiranno modelli di dimensioni aggiuntive, ma l’attuale famiglia Gemma 4 offre una soluzione AI aperta e completa, competitiva con i modelli proprietari. Per le aziende riluttanti ad adottare l’intelligenza artificiale aperta a causa di problemi di licenza, Google ha ora rimosso questa barriera.