Google está ampliando las capacidades de su IA Gemini, yendo más allá de las imágenes y el texto estáticos para ofrecer a los usuarios modelos 3D interactivos y simulaciones en tiempo real. Esta actualización permite al chatbot transformar consultas complejas en herramientas visuales dinámicas que los usuarios pueden manipular para comprender mejor los conceptos físicos.
De imágenes estáticas a interacciones dinámicas
Anteriormente, las capacidades visuales de Gemini se limitaban a generar imágenes interactivas. La nueva actualización introduce un nivel de participación mucho más profundo. En lugar de simplemente mirar una imagen, los usuarios ahora pueden interactuar con el resultado a través de varios métodos:
- Rotación y zoom: Los usuarios pueden rotar modelos 3D para verlos desde cualquier ángulo o ampliar detalles específicos.
- Ajustes en tiempo real: Muchas simulaciones incluyen controles deslizantes que permiten a los usuarios cambiar variables, como velocidad o fuerza, para ver cómo afectan el resultado al instante.
- Controles personalizados: Funciones como botones de “pausa” o conmutadores para ocultar rutas orbitales permiten una experiencia educativa más controlada.
Por ejemplo, una solicitud para visualizar la Luna orbitando la Tierra da como resultado un modelo en el que el usuario puede ajustar la velocidad orbital mediante un control deslizante o pausar el movimiento para inspeccionar puntos específicos del ciclo.
La carrera por la inteligencia visual
Este desarrollo es parte de una “carrera armamentista” más amplia entre los principales desarrolladores de IA para pasar del razonamiento basado en texto a la inteligencia multimodal. La capacidad de visualizar datos y física se está convirtiendo en un requisito estándar para los modelos de IA de alta gama.
La medida de Google sigue de cerca a las actualizaciones recientes de sus principales competidores:
– Anthropic recientemente habilitó su modelo Claude para responder con gráficos y diagramas interactivos.
– OpenAI introdujo funciones para ChatGPT que permiten la visualización de conceptos matemáticos y científicos.
Esta tendencia sugiere que la próxima frontera de la IA no es sólo “conocer” información, sino “demostrarla” a través del razonamiento visual e interactivo.
Cómo acceder a las nuevas funciones
La capacidad de generar estas simulaciones está actualmente disponible para los usuarios de la aplicación Gemini que seleccionan el modelo “Pro” en la barra de mensajes.
Para utilizar la función, los usuarios pueden ingresar indicaciones relacionadas con física, matemáticas o mecánica compleja, como:
* “Muéstrame un péndulo doble”
* “Ayúdame a visualizar el efecto Doppler”
Una vez que Gemini proporcione una respuesta de texto, aparecerá un botón “Muéstrame la visualización” debajo de la respuesta, lo que activará el modelo interactivo.
Conclusión: Al integrar simulaciones 3D, Google está transformando a Gemini de un asistente conversacional a una poderosa herramienta educativa y científica, manteniendo el ritmo de una industria en rápida evolución centrada en la IA visual e interactiva.
