Google Gemini entwickelt sich weiter: KI generiert jetzt interaktive 3D-Modelle und Simulationen

6

Google erweitert die Fähigkeiten seiner Gemini-KI und geht über statische Bilder und Texte hinaus, um Nutzern interaktive 3D-Modelle und Echtzeitsimulationen bereitzustellen. Dieses Update ermöglicht es dem Chatbot, komplexe Abfragen in dynamische visuelle Tools umzuwandeln, die Benutzer bearbeiten können, um physische Konzepte besser zu verstehen.

Von statischen Bildern zu dynamischen Interaktionen

Bisher beschränkten sich die visuellen Fähigkeiten von Gemini auf die Erzeugung interaktiver Bilder. Das neue Upgrade führt ein viel tieferes Maß an Engagement ein. Anstatt nur ein Bild anzusehen, können Benutzer jetzt auf verschiedene Arten mit der Ausgabe interagieren:

  • Rotation und Zoom: Benutzer können 3D-Modelle drehen, um sie aus jedem Winkel anzuzeigen oder bestimmte Details zu vergrößern.
  • Anpassungen in Echtzeit: Viele Simulationen enthalten Schieberegler, mit denen Benutzer Variablen wie Geschwindigkeit oder Kraft ändern können, um sofort zu sehen, wie sie sich auf das Ergebnis auswirken.
  • Benutzerdefinierte Steuerung: Funktionen wie „Pause“-Schaltflächen oder Schalter zum Ausblenden von Orbitalpfaden ermöglichen ein kontrollierteres Lernerlebnis.

Beispielsweise führt eine Anfrage zur Visualisierung des Mondes, der die Erde umkreist, zu einem Modell, bei dem der Benutzer die Umlaufgeschwindigkeit über einen Schieberegler anpassen oder die Bewegung anhalten kann, um bestimmte Punkte im Zyklus zu untersuchen.

Der Wettlauf um visuelle Intelligenz

Diese Entwicklung ist Teil eines umfassenderen „Wettrüstens“ unter großen KI-Entwicklern, um vom textbasierten Denken zur multimodalen Intelligenz überzugehen. Die Fähigkeit, Daten und Physik zu visualisieren, wird zu einer Standardanforderung für High-End-KI-Modelle.

Der Schritt von Google folgt unmittelbar auf die jüngsten Updates seiner Hauptkonkurrenten:
Anthropic hat kürzlich sein Claude-Modell aktiviert, um mit interaktiven Diagrammen und Diagrammen zu reagieren.
OpenAI hat Funktionen für ChatGPT eingeführt, die die Visualisierung mathematischer und wissenschaftlicher Konzepte ermöglichen.

Dieser Trend deutet darauf hin, dass die nächste Grenze für KI nicht nur darin besteht, Informationen zu „wissen“, sondern sie durch interaktives, visuelles Denken zu „demonstrieren“.

So greifen Sie auf die neuen Funktionen zu

Die Möglichkeit, diese Simulationen zu generieren, steht derzeit Benutzern der Gemini-App zur Verfügung, die in der Eingabeaufforderungsleiste das „Pro“-Modell auswählen.

Um die Funktion zu nutzen, können Benutzer Eingabeaufforderungen im Zusammenhang mit Physik, Mathematik oder komplexer Mechanik eingeben, wie zum Beispiel:
* „Zeig mir ein Doppelpendel“
* „Hilf mir, den Doppler-Effekt zu visualisieren“

Sobald Gemini eine Textantwort bereitstellt, wird unter der Antwort die Schaltfläche „Zeige mir die Visualisierung“** angezeigt, die das interaktive Modell auslöst.


Fazit: Durch die Integration von 3D-Simulationen verwandelt Google Gemini von einem Konversationsassistenten in ein leistungsstarkes Bildungs- und Wissenschaftstool und hält mit einer sich schnell entwickelnden Branche, die sich auf visuelle und interaktive KI konzentriert, Schritt.