Gemma 4 do Google: IA de código aberto finalmente alcança os modelos comerciais

16

O Google lançou sua mais nova família de modelos de IA de peso aberto, Gemma 4, sob a licença Apache 2.0 – uma mudança significativa que pode remodelar a forma como as empresas adotam a IA de código aberto. Durante anos, os modelos Gemma do Google ofereceram um forte desempenho, mas foram prejudicados por licenciamento restritivo, empurrando muitas organizações para alternativas como Mistral ou Qwen do Alibaba. A nova licença Apache 2.0 remove essas barreiras, permitindo um uso comercial mais amplo sem atritos legais.

Este momento é particularmente digno de nota, já que alguns laboratórios chineses de IA (como o Alibaba) estão reduzindo os lançamentos completos de código aberto para seus modelos mais recentes. O Google está se movendo na direção oposta, lançando seu lançamento Gemma mais capaz, ao mesmo tempo em que aproveita a pesquisa de seu proprietário Gemini 3.

Gemma 4: modelos para todos os dispositivos

Gemma 4 vem em quatro modelos, divididos em estações de trabalho e camadas de borda:

  • Nível de estação de trabalho: Inclui um modelo denso de parâmetros de 31B e um modelo de mistura de especialistas (MoE) A4B de 26B, ambos com suporte para janelas de contexto de texto, imagem e token de 256K.
  • Edge Tier: Consiste nos modelos E2B e E4B, projetados para telefones, dispositivos incorporados e laptops, com suporte para texto, imagem, áudio e janelas de contexto de token de 128K.

A convenção de nomenclatura é crucial: “E” denota “parâmetros efetivos”, o que significa que o modelo se comporta como um tamanho menor, embora seja tecnicamente maior devido aos Embeddings por Camada (PLE) do Google. O “A” em A4B significa “parâmetros ativos”, indicando que apenas uma fração do total de parâmetros do modelo é ativada durante a inferência, proporcionando alta inteligência com custos computacionais mais baixos.

Arquitetura MoE: Desempenho com Eficiência

O modelo 26B A4B MoE usa 128 pequenos “especialistas”, ativando apenas oito por token mais um especialista sempre ativo. Isso resulta em desempenho comparável a modelos densos na faixa 27B–31B, mas com velocidades de inferência semelhantes a um modelo 4B. Isso significa menos GPUs, menor latência e inferência por token mais barata para cargas de trabalho de produção, como assistentes de codificação ou processamento de documentos.

Gemma 4 também emprega um mecanismo de atenção híbrido que combina atenção de janela deslizante local com atenção global completa, permitindo janelas de contexto longas (256K) sem consumo excessivo de memória.

Multimodalidade nativa: visão, áudio e chamada de função

Ao contrário dos modelos abertos anteriores que adotaram a multimodalidade como uma reflexão tardia, o Gemma 4 integra visão, áudio e chamada de função no nível arquitetônico:

  • Visão: oferece suporte a imagens de proporção variável com orçamentos de tokens visuais configuráveis para tarefas como OCR, análise de documentos e análise refinada.
  • Áudio: Processamento de áudio nativo (ASR e tradução) no dispositivo, compactado em 305 milhões de parâmetros para maior capacidade de resposta.
  • Chamada de função: Integrado desde o início, otimizando fluxos de agentes multivoltas com diversas ferramentas e reduzindo a sobrecarga imediata de engenharia.

Benchmarks e desempenho

Gemma 4 compara fortemente:

  • 31B denso: 89,2% no AIME 2026 (raciocínio matemático), 80,0% no LiveCodeBench v6 (codificação) e Codeforces ELO de 2.150.
  • 26B A4B MoE: 88,3% no AIME 2026, 77,1% no LiveCodeBench v6 e 82,3% no GPQA Diamond (raciocínio científico).
  • Modelos Edge: E4B (42,5% no AIME 2026) e E2B (37,5% no AIME 2026) superam as versões anteriores do Gemma, apesar de serem menores.

Enquanto Qwen, GLM e Kimi competem nesta faixa de parâmetros, Gemma 4 se destaca por combinar forte desempenho com uma licença verdadeiramente permissiva e multimodalidade nativa.

O que vem a seguir?

Google has released both pre-trained base models and instruction-tuned variants, encouraging custom fine-tuning. A opção de implantação sem servidor via Cloud Run com suporte a GPU pode reduzir significativamente o custo de implantação de modelos abertos em produção. É provável que tamanhos de modelos adicionais venham a seguir, mas a atual família Gemma 4 oferece uma solução completa de IA aberta, competitiva com modelos proprietários. Para as empresas hesitantes em adotar a IA aberta devido a questões de licenciamento, o Google removeu agora essa barreira.