Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Google Genie 3 erweckt Ihre 3D-Welt mit KI zum Leben

Abirami Vina

4 Min. Lesezeit

15. August 2025

Das KI-Weltmodell Genie 3 von DeepMind wandelt Text- oder Bildaufforderungen in 3D-Umgebungen um. Dieser Fortschritt markiert einen weiteren Schritt in Richtung menschenähnlicher Intelligenz.

Am 5. August 2025 veröffentlichte Google DeepMind seine neueste Version des Genie-Modells, bekannt als Genie 3. Es ist ein neues KI-Modell, das die Texteingaben eines Nutzers in dynamische, interaktive Umgebungen umwandeln kann. 

Diese Umgebungen, oder KI-Welten, ermöglichen es dem Benutzer, in Echtzeit zu navigieren und mit ihnen zu interagieren, ähnlich wie in einem Videospiel. Benutzer können die Umgebung auch erweitern oder modifizieren, indem sie zusätzliche Textprompts bereitstellen, wodurch Änderungen im laufenden Betrieb ohne Neustart der Simulation möglich sind. 

Was das neueste Genie-Modell Google besonders interessant macht, ist die Tatsache, dass es zum Training von KI-Agenten verwendet werden kann. Dabei geht es darum, KI-Agenten anhand von Daten und Feedback zu lehren, Entscheidungen zu treffen oder Aufgaben auszuführen. Durch die Verwendung einer simulierten 3D-Umgebung anstelle der realen Welt können Forscher viele der Herausforderungen, Kosten und Risiken des Trainings in der realen Welt vermeiden.

Google Genie 3 kann auch komplexe Szenarien simulieren, z. B. die Fahrt eines autonomen Autos bei schlechtem Wetter oder den Gleitflug eines Wingsuits durch bergiges Gelände. 

In diesem Artikel werden wir uns mit Google Genie 3 und seinen Möglichkeiten beschäftigen. Legen wir los!

Abb. 1. Ein Frame aus einer Genie 3-Simulation, der einen Wingsuit-Gleitflug zeigt. (Quelle)

Eine kurze Geschichte der Genie-Modelle von Google

Bevor wir uns mit den Genie-Modellen von Google DeepMind beschäftigen, sollten wir besser verstehen, was Weltmodelle sind. 

Weltmodelle sind KI-Systeme, die reale Regeln wie Physik, Bewegung und räumliche Beziehungen aus Text-, Bild-, Video- und Bewegungs-Datensätzen lernen. Dies ermöglicht es ihnen, realistische Szenen zu erstellen und vorherzusagen, wie sie sich entwickeln. Die Genie-Modelle sind Beispiele für solche Systeme.

Hier ist ein kurzer Blick auf die früheren Google Genie-Modelle, die den Weg für Genie 3 geebnet haben:

  • Genie 1: Genie 1, oft auch einfach als Google Genie bezeichnet, war das erste KI-Weltmodell von Google DeepMind, das interaktive virtuelle Umgebungen erstellen konnte. Nutzer konnten eine Welt mit Text, Bildern, Fotos oder sogar Skizzen beschreiben, und Genie generierte sie und ließ sie Aktionen innerhalb der Szene steuern. Es wurde entwickelt, um Videodaten im Laufe der Zeit zu verarbeiten, das nächste Bild vorherzusagen und Benutzereingaben in Aktionen in der Welt zu übersetzen.
  • Genie 2: Aufbauend auf den Fähigkeiten von Google Genie konnte Genie 2 eine breite Palette detaillierter, interaktiver 3D-Welten erstellen. Als Weltmodell simulierte es virtuelle Umgebungen und reagierte realistisch auf Aktionen wie Springen, Schwimmen oder das Bewegen von Objekten. Es wurde anhand einer umfangreichen Sammlung von Videos trainiert und zeichnete sich durch realistische Objektinteraktionen und naturgetreue Charakterbewegungen aus.

Was ist Genie 3? Das neue KI-Modell von Google

Genie 3 baut auf früheren Genie-Modellen auf und ist das neueste und fortschrittlichste Modell der Serie. Es baut insbesondere auf Genie 2 auf, das neue virtuelle Umgebungen generieren konnte, sowie auf Veo 3, dem neuesten Videogenerierungsmodell von Google DeepMind. Veo 3 demonstriert ein tiefes Verständnis der Physik und der Interaktion von Objekten in der realen Welt.

Während Veo 3 eine fest programmierte Physik-Engine verwendet, bringt Google Genie 3 sich selbst bei, wie die Physik funktioniert, indem es eine Methode verwendet, die als selbstüberwachtes Lernen bekannt ist. Dabei handelt es sich um eine KI-Lerntechnik, bei der ein KI-Modell Muster und Beziehungen aus unmarkierten Daten lernt, indem es seine eigenen Lernsignale erzeugt. 

Die Fähigkeit von Google Genie 3 zum selbstgesteuerten Lernen ist entscheidend für das Training von KI-Systemen wie KI-Agenten oder KI-Robotern zur Bewältigung verschiedener Aufgaben. Die Forscher von Google DeepMind sehen Genie 3 als einen wichtigen Schritt auf dem Weg zu einer allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI)

Abbildung 2. Ein Beispiel für die Verwendung von Google Genie 3 zur Simulation der Steuerung eines Roboter-Rovers.(Quelle)

AGI ist eine theoretische Form der KI, die jede Aufgabe oder jedes Thema verstehen und erlernen und dieses Wissen in verschiedenen Situationen anwenden kann, ähnlich wie ein Mensch. Im Gegensatz zu den heutigen Modellen der künstlichen Intelligenz, die für spezifische Aufgaben entwickelt wurden und Schwierigkeiten haben, ihre Fähigkeiten auf neue Probleme zu übertragen, wäre AGI in der Lage, sich in einem breiten Spektrum von Kontexten anzupassen und zu lernen.

Die wichtigsten Funktionen von Google Genie 3 für den Aufbau einer KI-Welt

Hier sind einige der wichtigsten Funktionen, die von Genie 3 unterstützt werden:

  • Text-to-3D Weltgenerierung: Sie kann eine einfache Texteingabe (z. B. “ein Roboter, der die Straße entlang geht“) in eine spielbare 3D-ähnliche Umgebung mit grundlegenden Bewegungssteuerungen verwandeln.
  • Promptgesteuerte Weltereignisse: Benutzer können die Umgebung dynamisch verändern, indem sie neue Befehle eingeben (z. B. Regen auf der Straße hinzufügen).
  • Visuelles Gedächtnis: Genie 3 kann sich an Objekte erinnern, die in der Umgebung zurückgelassen wurden, und ermöglicht es Ihnen, diese später wieder zu besuchen, für etwa eine Minute.
  • Gleichmäßige und konsistente Videoausgabe: Es kann eine Videoausgabe von 24 fps (Frames pro Sekunde) bei einer Auflösung von 720p aufrechterhalten, mit einer längeren Nutzungsdauer im Vergleich zu Genie 2.
Abbildung 3. Google Genie 3 kann Ausgaben erzeugen, die länger dauern als die von Genie 2(Quelle).

Bildung und Spiele: Anwendungen von Google DeepMinds Genie 3

Google Genie 3 kann das Lernen, die Forschung und die Ausbildung immersiver und ansprechender gestalten. In Klassenzimmern kann es beispielsweise Geschichte, Wissenschaft oder Geografie zum Leben erwecken, indem es die Schüler antike Städte erkunden oder durch den Weltraum reisen lässt. Entwicklern von künstlicher Intelligenz bietet es realistische virtuelle Welten, um Strategien zu üben, Herausforderungen zu meistern und die Entscheidungsfähigkeit zu verbessern.

Wissenschaftler können sie auch verwenden, um kontrollierte Simulationen zum Testen von Ideen, zum Studium von Ökosystemen oder zur Beobachtung des Verhaltens von Objekten zu erstellen. Eine weitere interessante Anwendung findet sich in der Videospielentwicklung. Spieleentwickler können Textvorgaben in detaillierte Spielwelten verwandeln, was die Entwicklung beschleunigt und den Bedarf an großen Teams reduziert.

Abb. 4. Lustige, farbenfrohe und interaktive Spiele können mit Genie 3 entworfen werden. (Quelle)

Beschränkungen von Google Genie 3 als Weltmodell

Google Genie 3 bietet zwar viele Funktionen und Vorteile, aber man sollte auch seine Nachteile berücksichtigen. 

Hier sind einige Einschränkungen, die zu berücksichtigen sind:

  • Begrenzter Aktionsradius: Sie können zwar viele Ereignisse in der virtuellen Welt auslösen, aber nicht alle werden vom Agenten selbst ausgeführt. Die Aktionen, die ein Agent direkt ausführen kann, sind weiterhin begrenzt.
  • Interaktion mit anderen Agenten: Das Erstellen realistischer Interaktionen zwischen mehreren unabhängigen Agenten in derselben Umgebung ist noch in Arbeit.
  • Genauigkeit in der realen Welt: Google Genie 3 kann reale Standorte noch nicht mit perfekter geografischer Genauigkeit nachbilden.

Wesentliche Erkenntnisse

Google Genie 3 stellt einen bedeutenden Fortschritt bei der Erstellung realistischer, interaktiver 3D-Welten mit KI dar. Es kann Ideen durch einfache Texteingaben zum Leben erwecken, Physik simulieren und sogar KI-Systeme in sicheren virtuellen Räumen trainieren. 

Obwohl es noch Grenzen hat, eröffnet es viele Möglichkeiten für Forschung, Gaming und KI-Entwicklung. Es ist auch ein entscheidender Schritt hin zu AGI-Systemen, die eher wie Menschen denken und lernen können.

Entdecken Sie mehr über KI in unserem GitHub-Repository. Treten Sie unserer aktiven Community bei und entdecken Sie Innovationen in Bereichen wie KI im Einzelhandel und Vision AI in der Fertigung. Um noch heute mit Computer Vision zu beginnen, informieren Sie sich über unsere Lizenzoptionen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten