Google Genie 3 erweckt Ihre 3D-Welt mit KI zum Leben

Abirami Vina

4 Minuten lesen

August 15, 2025

Das KI-Weltmodell Genie 3 von DeepMind wandelt Text- oder Bildanweisungen in 3D-Umgebungen um. Dieser Fortschritt ist ein weiterer Schritt in Richtung menschenähnliche Intelligenz.

Am 5. August 2025 veröffentlichte Google DeepMind seine neueste Version des Genie-Modells, bekannt als Genie 3. Es ist ein neues KI-Modell, das die Texteingaben eines Nutzers in dynamische, interaktive Umgebungen umwandeln kann. 

Diese Umgebungen oder KI-Welten ermöglichen es dem Benutzer, in Echtzeit zu navigieren und mit ihnen zu interagieren, ähnlich wie in einem Videospiel. Die Benutzer können die Umgebung auch erweitern oder verändern, indem sie zusätzliche Texteingaben machen, so dass Änderungen sofort vorgenommen werden können, ohne dass die Simulation neu gestartet werden muss. 

Was das neueste Genie-Modell von Google besonders interessant macht, ist die Tatsache, dass es zum Training von KI-Agenten verwendet werden kann. Dabei geht es darum, KI-Agenten anhand von Daten und Feedback zu lehren, Entscheidungen zu treffen oder Aufgaben auszuführen. Durch die Verwendung einer simulierten 3D-Umgebung anstelle der realen Welt können Forscher viele der Herausforderungen, Kosten und Risiken des Trainings in der realen Welt vermeiden.

Google Genie 3 kann auch komplexe Szenarien simulieren, z. B. die Fahrt eines autonomen Autos bei schlechtem Wetter oder den Gleitflug eines Wingsuits durch bergiges Gelände. 

In diesem Artikel werden wir uns mit Google Genie 3 und seinen Möglichkeiten beschäftigen. Legen wir los!

Abb. 1. Ein Bild aus einer Genie 3-Simulation, das einen Wingsuit im Gleitflug zeigt.(Quelle)

Eine kurze Geschichte der Genie-Modelle von Google

Bevor wir uns mit den Genie-Modellen von Google DeepMind beschäftigen, sollten wir besser verstehen, was Weltmodelle sind. 

Weltmodelle sind KI-Systeme, die Regeln der realen Welt wie Physik, Bewegung und räumliche Beziehungen aus Texten, Bildern, Videos und Bewegungsdatensätzen lernen. Auf diese Weise können sie realistische Szenen erstellen und vorhersagen, wie sie sich entwickeln. Die Genie-Modelle sind Beispiele für solche Systeme.

Hier ist ein kurzer Blick auf die früheren Google Genie-Modelle, die den Weg für Genie 3 geebnet haben:

  • Genie 1: Genie 1, oft auch einfach als Google Genie bezeichnet, war das erste KI-Weltmodell von Google DeepMind, das interaktive virtuelle Umgebungen erstellen konnte. Nutzer konnten eine Welt mit Text, Bildern, Fotos oder sogar Skizzen beschreiben, und Genie generierte sie und ließ sie Aktionen innerhalb der Szene steuern. Es wurde entwickelt, um Videodaten im Laufe der Zeit zu verarbeiten, das nächste Bild vorherzusagen und Benutzereingaben in Aktionen in der Welt zu übersetzen.
  • Genie 2: Aufbauend auf den Fähigkeiten von Google Genie konnte Genie 2 eine breite Palette detaillierter, interaktiver 3D-Welten erstellen. Als Weltmodell simulierte es virtuelle Umgebungen und reagierte realistisch auf Aktionen wie Springen, Schwimmen oder das Bewegen von Objekten. Es wurde anhand einer umfangreichen Sammlung von Videos trainiert und zeichnete sich durch realistische Objektinteraktionen und naturgetreue Charakterbewegungen aus.

Was ist Genie 3? Das neue KI-Modell von Google

Genie 3 baut auf früheren Genie-Modellen auf und ist das neueste und fortschrittlichste Modell der Serie. Es baut insbesondere auf Genie 2 auf, das neue virtuelle Umgebungen generieren konnte, sowie auf Veo 3, dem neuesten Videogenerierungsmodell von Google DeepMind. Veo 3 demonstriert ein tiefes Verständnis der Physik und der Interaktion von Objekten in der realen Welt.

Während Veo 3 eine fest programmierte Physik-Engine verwendet, bringt Google Genie 3 sich selbst bei, wie die Physik funktioniert, indem es eine Methode verwendet, die als selbstüberwachtes Lernen bekannt ist. Dabei handelt es sich um eine KI-Lerntechnik, bei der ein KI-Modell Muster und Beziehungen aus unmarkierten Daten lernt, indem es seine eigenen Lernsignale erzeugt. 

Die Fähigkeit von Google Genie 3 zum selbstgesteuerten Lernen ist entscheidend für das Training von KI-Systemen wie KI-Agenten oder KI-Robotern zur Bewältigung verschiedener Aufgaben. Die Forscher von Google DeepMind sehen Genie 3 als einen wichtigen Schritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI)

Abb. 2. Ein Beispiel für die Verwendung von Google Genie 3 zur Simulation der Steuerung eines Roboter-Rovers.(Quelle)

AGI ist eine theoretische Form der KI, die jede Aufgabe oder jedes Thema verstehen und erlernen und dieses Wissen in verschiedenen Situationen anwenden kann, ähnlich wie ein Mensch. Im Gegensatz zu den heutigen Modellen der künstlichen Intelligenz, die für bestimmte Aufgaben entwickelt wurden und Schwierigkeiten haben, ihre Fähigkeiten auf neue Probleme zu übertragen, wäre die AGI in der Lage, sich anzupassen und in einer Vielzahl von Kontexten zu lernen.

Die wichtigsten Funktionen von Google Genie 3 für den Aufbau einer KI-Welt

Hier sind einige der wichtigsten Funktionen von Genie 3:

  • Text-zu-3D-Welt-Generierung: Es kann eine einfache Texteingabe (z. B. "ein Roboter, der die Straße entlang läuft") in eine spielbare 3D-ähnliche Umgebung mit einfacher Bewegungssteuerung umwandeln.
  • Abrufbare Weltereignisse: Die Benutzer können die Umgebung dynamisch verändern, indem sie neue Befehle eingeben (z. B. Regen auf der Straße).
  • Visuelles Gedächtnis: Genie 3 kann sich an in der Umgebung zurückgelassene Objekte erinnern und sie später wieder aufrufen. Dies dauert etwa eine Minute.
  • Reibungslose und konsistente Videoausgabe: Es kann eine Videoausgabe von 24 fps (Bilder pro Sekunde) bei 720p-Auflösung beibehalten, mit längerem Engagement im Vergleich zu Genie 2.
Abbildung 3. Google Genie 3 kann Ausgaben erzeugen, die länger dauern als die von Genie 2(Quelle).

Bildung und Spiele: Anwendungen von Google DeepMinds Genie 3

Google Genie 3 kann das Lernen, die Forschung und die Ausbildung immersiver und ansprechender gestalten. In Klassenzimmern kann es beispielsweise Geschichte, Wissenschaft oder Geografie zum Leben erwecken, indem es die Schüler antike Städte erkunden oder durch den Weltraum reisen lässt. Entwicklern von künstlicher Intelligenz bietet es realistische virtuelle Welten, um Strategien zu üben, Herausforderungen zu meistern und die Entscheidungsfähigkeit zu verbessern.

Wissenschaftler können damit auch kontrollierte Simulationen erstellen, um Ideen zu testen, Ökosysteme zu untersuchen oder das Verhalten von Objekten zu beobachten. Eine weitere interessante Anwendung findet sich in der Entwicklung von Videospielen. Spieleentwickler können Textaufforderungen in detaillierte Spielwelten verwandeln, was die Entwicklung beschleunigt und den Bedarf an großen Teams verringert.

Abb. 4. Mit Genie 3 können lustige, farbenfrohe und interaktive Spiele entwickelt werden(Quelle)

Beschränkungen von Google Genie 3 als Weltmodell

Google Genie 3 bietet zwar viele Funktionen und Vorteile, aber man sollte auch seine Nachteile berücksichtigen. 

Hier sind einige Einschränkungen zu beachten:

  • Begrenzter Aktionsradius: Sie können zwar viele Ereignisse in der virtuellen Welt auslösen, aber nicht alle davon werden vom Agenten selbst ausgeführt. Die Aktionen, die ein Agent direkt ausführen kann, sind immer noch begrenzt.
  • Interaktion mit anderen Agenten: Die Entwicklung realistischer Interaktionen zwischen mehreren unabhängigen Agenten in derselben Umgebung ist noch nicht abgeschlossen.
  • Genauigkeit in der realen Welt: Google Genie 3 kann reale Standorte noch nicht mit perfekter geografischer Genauigkeit nachbilden.

Die wichtigsten Erkenntnisse

Google Genie 3 stellt einen bedeutenden Fortschritt bei der Erstellung realistischer, interaktiver 3D-Welten mit KI dar. Es kann Ideen durch einfache Texteingaben zum Leben erwecken, Physik simulieren und sogar KI-Systeme in sicheren virtuellen Räumen trainieren. 

Sie hat zwar noch ihre Grenzen, eröffnet aber viele Möglichkeiten für Forschung, Spiele und KI-Entwicklung. Es ist auch ein entscheidender Schritt auf dem Weg zu AGI-Systemen, die mehr wie Menschen denken und lernen können.

Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Werden Sie Mitglied unserer aktiven Community und entdecken Sie Innovationen in Bereichen wie KI im Einzelhandel und Vision AI in der Fertigung. Wenn Sie noch heute mit Computer Vision beginnen möchten, sehen Sie sich unsere Lizenzierungsoptionen an.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert