Google ha lanzado su nueva familia de modelos de IA de peso abierto, Gemma 4, bajo la licencia Apache 2.0, un cambio significativo que podría remodelar la forma en que las empresas adoptan la IA de código abierto. Durante años, los modelos Gemma de Google han ofrecido un rendimiento sólido, pero se vieron obstaculizados por licencias restrictivas, lo que empujó a muchas organizaciones hacia alternativas como Mistral o Qwen de Alibaba. La nueva licencia Apache 2.0 elimina esas barreras, permitiendo un uso comercial más amplio sin fricciones legales.
Este momento es particularmente digno de mención, ya que algunos laboratorios chinos de IA (como Alibaba) están reduciendo los lanzamientos completos de código abierto para sus últimos modelos. Google se está moviendo en la dirección opuesta, lanzando su versión Gemma más capaz hasta el momento mientras aprovecha la investigación de su propietario Gemini 3.
Gemma 4: modelos para cada dispositivo
Gemma 4 viene en cuatro modelos, divididos en estaciones de trabajo y niveles de borde:
- Nivel de estación de trabajo: Incluye un modelo denso de 31B de parámetros y un modelo de mezcla de expertos (MoE) A4B de 26B, ambos compatibles con texto, imágenes y ventanas de contexto de 256K de tokens.
- Edge Tier: Consta de los modelos E2B y E4B, diseñados para teléfonos, dispositivos integrados y computadoras portátiles, con soporte para texto, imágenes, audio y ventanas contextuales de 128 000 tokens.
La convención de nomenclatura es crucial: “E” denota “parámetros efectivos”, lo que significa que el modelo se comporta como un tamaño más pequeño aunque técnicamente es más grande debido a las incrustaciones por capa (PLE) de Google. La “A” en A4B significa “parámetros activos”, lo que indica que solo una fracción de los parámetros totales del modelo se activa durante la inferencia, lo que brinda alta inteligencia con menores costos de computación.
Arquitectura MoE: rendimiento con eficiencia
El modelo 26B A4B MoE utiliza 128 pequeños “expertos”, activando sólo ocho por token más un experto siempre activo. Esto da como resultado un rendimiento comparable al de los modelos densos en el rango 27B-31B, pero con velocidades de inferencia similares a las de un modelo 4B. Esto significa menos GPU, menor latencia e inferencia por token más económica para cargas de trabajo de producción como asistentes de codificación o procesamiento de documentos.
Gemma 4 también emplea un mecanismo de atención híbrido que combina la atención de ventana deslizante local con atención global completa, permitiendo ventanas de contexto largas (256K) sin un consumo excesivo de memoria.
Multimodalidad nativa: visión, audio y llamadas de funciones
A diferencia de los modelos abiertos anteriores que incorporaron la multimodalidad como una ocurrencia tardía, Gemma 4 integra visión, audio y llamadas de funciones a nivel arquitectónico:
- Visión: Admite imágenes con relación de aspecto variable con presupuestos de tokens visuales configurables para tareas como OCR, análisis de documentos y análisis detallados.
- Audio: Procesamiento de audio nativo (ASR y traducción) en el dispositivo, comprimido a 305 millones de parámetros para mayor capacidad de respuesta.
- Llamada de funciones: Integrado desde cero, optimiza los flujos agentes de múltiples turnos con múltiples herramientas y reduce la sobrecarga de ingeniería inmediata.
Puntos de referencia y rendimiento
Gemma 4 compara fuertemente:
- 31B Denso: 89,2 % en AIME 2026 (razonamiento matemático), 80,0 % en LiveCodeBench v6 (codificación) y Codeforces ELO de 2150.
- 26B A4B MoE: 88,3 % en AIME 2026, 77,1 % en LiveCodeBench v6 y 82,3 % en GPQA Diamond (razonamiento científico).
- Modelos Edge: E4B (42,5 % en AIME 2026) y E2B (37,5 % en AIME 2026) superan a las versiones anteriores de Gemma a pesar de ser más pequeñas.
Mientras Qwen, GLM y Kimi compiten en este rango de parámetros, Gemma 4 se destaca por combinar un sólido rendimiento con una licencia verdaderamente permisiva y multimodalidad nativa.
¿Qué sigue?
Google ha lanzado modelos base previamente entrenados y variantes ajustadas por instrucciones, fomentando ajustes personalizados. La opción de implementación sin servidor a través de Cloud Run con soporte para GPU podría reducir significativamente el costo de implementar modelos abiertos en producción. Es probable que sigan tamaños de modelos adicionales, pero la actual familia Gemma 4 ofrece una solución completa de IA abierta que compite con los modelos propietarios. Para las empresas que dudan en adoptar la IA abierta debido a problemas de licencia, Google ahora ha eliminado esa barrera.
