Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Google Genie 3 erweckt Ihre 3D-Welt mit KI zum Leben

Abirami Vina

4 Min. Lesezeit

15. August 2025

Das KI-Weltmodell Genie 3 von DeepMind wandelt Text- oder Bildaufforderungen in 3D-Umgebungen um. Dieser Fortschritt markiert einen weiteren Schritt in Richtung menschenähnlicher Intelligenz.

Am 5. August 2025 veröffentlichte Google DeepMind die neueste Version seines Genie-Modells, bekannt als Genie 3. Es handelt sich um ein neues KI-Modell, das die Texteingaben eines Benutzers in dynamische, interaktive Umgebungen umwandeln kann. 

Diese Umgebungen, oder KI-Welten, ermöglichen es dem Benutzer, in Echtzeit zu navigieren und mit ihnen zu interagieren, ähnlich wie in einem Videospiel. Benutzer können die Umgebung auch erweitern oder modifizieren, indem sie zusätzliche Textprompts bereitstellen, wodurch Änderungen im laufenden Betrieb ohne Neustart der Simulation möglich sind. 

Was das neueste Genie Google-Modell besonders wirkungsvoll macht, ist, dass es zum Trainieren von KI-Agenten verwendet werden kann. Dies beinhaltet das Lehren von KI-Agenten, Entscheidungen zu treffen oder Aufgaben mithilfe von Daten und Feedback auszuführen. Durch die Verwendung einer simulierten 3D-Umgebung anstelle der realen Welt können Forscher viele der Herausforderungen, Kosten und Risiken des realen Trainings vermeiden.

Google Genie 3 kann auch komplexe Szenarien simulieren, wie z. B. das Testen eines autonomen Autos, das durch starkes Wetter fährt, oder eines Wingsuits, der durch bergiges Gelände gleitet. 

In diesem Artikel werden wir Google Genie 3 und seine Fähigkeiten untersuchen. Los geht's!

Abb. 1. Ein Frame aus einer Genie 3-Simulation, der einen Wingsuit-Gleitflug zeigt. (Quelle)

Ein kurzer Überblick über die Genie-Modelle von Google

Bevor wir uns mit den Genie-Modellen von Google DeepMind befassen, wollen wir uns ein besseres Verständnis davon verschaffen, was Weltmodelle sind. 

Weltmodelle sind KI-Systeme, die reale Regeln wie Physik, Bewegung und räumliche Beziehungen aus Text-, Bild-, Video- und Bewegungs-Datensätzen lernen. Dies ermöglicht es ihnen, realistische Szenen zu erstellen und vorherzusagen, wie sie sich entwickeln. Die Genie-Modelle sind Beispiele für solche Systeme.

Hier ist ein kurzer Einblick in die früheren Google Genie-Modelle, die den Weg für Genie 3 bereitet haben:

  • Genie 1: Genie 1, oft einfach als Google Genie bezeichnet, war das erste KI-Weltmodell von Google DeepMind, das interaktive virtuelle Umgebungen erstellen konnte. Benutzer konnten eine Welt mit Text, Bildern, Fotos oder sogar Skizzen beschreiben, und Genie würde sie generieren und ihnen die Kontrolle über Aktionen innerhalb der Szene ermöglichen. Es wurde entwickelt, um Videodaten im Zeitverlauf zu verarbeiten, den nächsten Frame vorherzusagen und Benutzereingaben in Aktionen innerhalb der Welt zu übersetzen.
  • Genie 2: Aufbauend auf den Fähigkeiten von Google Genie konnte Genie 2 eine breite Palette detaillierter, interaktiver 3D-Welten erstellen. Als Weltmodell simulierte es virtuelle Umgebungen und reagierte realistisch auf Aktionen wie Springen, Schwimmen oder Bewegen von Objekten. Es wurde mit einer riesigen Sammlung von Videos trainiert und zeichnete sich durch realistische Objektinteraktionen und lebensechte Charakterbewegungen aus.

Was ist Genie 3? Das neue KI-Modell von Google

Aufbauend auf früheren Genie-Modellen ist Genie 3 das neueste und fortschrittlichste Modell der Serie. Es baut insbesondere auf Genie 2 auf, das neue virtuelle Umgebungen generieren konnte, und Veo 3, dem neuesten Videogenerierungsmodell von Google DeepMind. Veo 3 demonstriert ein tiefes Verständnis der Physik und der Interaktion von Objekten in der realen Welt.

Während Veo 3 eine fest codierte Physik-Engine verwendet, bringt Google Genie 3 sich selbst bei, wie Physik funktioniert, und zwar mit einer Methode, die als selbstüberwachtes Lernen bekannt ist. Es handelt sich um eine KI-Lerntechnik, bei der ein KI-Modell Muster und Beziehungen aus unbeschrifteten Daten lernt, indem es seine eigenen Lernsignale erzeugt. 

Die Fähigkeit zum selbstüberwachten Lernen von Google Genie 3 ist entscheidend für das Training von KI-Systemen, wie z. B. KI-Agenten oder KI-Robotern, zur Bewältigung verschiedener Aufgaben. Tatsächlich sehen Forscher bei Google DeepMind Genie 3 als einen wichtigen Schritt zur Schaffung von künstlicher allgemeiner Intelligenz (AGI)

Abb. 2. Ein Beispiel für die Verwendung von Google Genie 3 zur Simulation der Steuerung eines Roboter-Rovers. (Quelle)

AGI ist eine theoretische Form der KI, die jede Aufgabe oder jedes Thema verstehen und erlernen und dieses Wissen in verschiedenen Situationen anwenden kann, ähnlich wie ein Mensch. Im Gegensatz zu den heutigen Modellen der künstlichen Intelligenz, die für spezifische Aufgaben entwickelt wurden und Schwierigkeiten haben, ihre Fähigkeiten auf neue Probleme zu übertragen, wäre AGI in der Lage, sich in einem breiten Spektrum von Kontexten anzupassen und zu lernen.

Wichtige Funktionen von Google Genie 3 im Zusammenhang mit dem Aufbau einer KI-Welt

Hier sind einige der wichtigsten Funktionen, die von Genie 3 unterstützt werden:

  • Text-to-3D Weltgenerierung: Sie kann eine einfache Texteingabe (z. B. “ein Roboter, der die Straße entlang geht“) in eine spielbare 3D-ähnliche Umgebung mit grundlegenden Bewegungssteuerungen verwandeln.
  • Promptgesteuerte Weltereignisse: Benutzer können die Umgebung dynamisch verändern, indem sie neue Befehle eingeben (z. B. Regen auf der Straße hinzufügen).
  • Visuelles Gedächtnis: Genie 3 kann sich an Objekte erinnern, die in der Umgebung zurückgelassen wurden, und ermöglicht es Ihnen, diese später wieder zu besuchen, für etwa eine Minute.
  • Gleichmäßige und konsistente Videoausgabe: Es kann eine Videoausgabe von 24 fps (Frames pro Sekunde) bei einer Auflösung von 720p aufrechterhalten, mit einer längeren Nutzungsdauer im Vergleich zu Genie 2.
Abb. 3. Google Genie 3 kann Ausgaben generieren, die länger halten als die von Genie 2 produzierten. (Quelle)

Von Bildung bis Gaming: Anwendungen von Google DeepMind’s Genie 3

Google Genie 3 kann das Lernen, die Forschung und das Training immersiver und ansprechender gestalten. Im Unterricht kann es beispielsweise Geschichte, Wissenschaft oder Geografie zum Leben erwecken, indem es Schülern ermöglicht, antike Städte zu erkunden oder durch den Weltraum zu reisen. Für Entwickler künstlicher Intelligenz bietet es realistische virtuelle Welten, um Strategien zu üben, Herausforderungen zu meistern und Entscheidungsfindungsfähigkeiten zu verbessern.

Wissenschaftler können sie auch verwenden, um kontrollierte Simulationen zum Testen von Ideen, zum Studium von Ökosystemen oder zur Beobachtung des Verhaltens von Objekten zu erstellen. Eine weitere interessante Anwendung findet sich in der Videospielentwicklung. Spieleentwickler können Textvorgaben in detaillierte Spielwelten verwandeln, was die Entwicklung beschleunigt und den Bedarf an großen Teams reduziert.

Abb. 4. Lustige, farbenfrohe und interaktive Spiele können mit Genie 3 entworfen werden. (Quelle)

Einschränkungen von Google Genie 3 als Weltmodell

Obwohl Google Genie 3 viele Funktionen und Vorteile bietet, ist es auch wichtig, seine Nachteile zu berücksichtigen. 

Hier sind einige Einschränkungen, die zu berücksichtigen sind:

  • Begrenzter Aktionsradius: Sie können zwar viele Ereignisse in der virtuellen Welt auslösen, aber nicht alle werden vom Agenten selbst ausgeführt. Die Aktionen, die ein Agent direkt ausführen kann, sind weiterhin begrenzt.
  • Interaktion mit anderen Agenten: Das Erstellen realistischer Interaktionen zwischen mehreren unabhängigen Agenten in derselben Umgebung ist noch in Arbeit.
  • Realitätsnahe Genauigkeit: Google Genie 3 kann reale Orte noch nicht mit perfekter geografischer Präzision nachbilden.

Wesentliche Erkenntnisse

Google Genie 3 stellt einen bedeutenden Fortschritt bei der Erstellung realistischer, interaktiver 3D-Welten mit KI dar. Es kann Ideen aus einfachen Textaufforderungen zum Leben erwecken, Physik simulieren und sogar KI-Systeme in sicheren virtuellen Räumen trainieren. 

Obwohl es noch Grenzen hat, eröffnet es viele Möglichkeiten für Forschung, Gaming und KI-Entwicklung. Es ist auch ein entscheidender Schritt hin zu AGI-Systemen, die eher wie Menschen denken und lernen können.

Entdecken Sie mehr über KI in unserem GitHub-Repository. Treten Sie unserer aktiven Community bei und entdecken Sie Innovationen in Bereichen wie KI im Einzelhandel und Vision AI in der Fertigung. Um noch heute mit Computer Vision zu beginnen, informieren Sie sich über unsere Lizenzoptionen.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert