Google Genie 3 donne vie à votre monde en 3D grâce à l'IA

Abirami Vina

4 min lire

15 août 2025

Le modèle de monde IA Genie 3 de DeepMind convertit des textes ou des images en environnements 3D. Cette avancée marque un nouveau pas vers une intelligence semblable à celle de l'homme.

Le 5 août 2025, Google DeepMind a publié sa dernière version du modèle Genie, appelée Genie 3. Il s'agit d'un nouveau modèle d'IA capable de convertir les invites textuelles d'un utilisateur en environnements dynamiques et interactifs. 

Ces environnements, ou mondes IA, permettent à l'utilisateur de naviguer et d'interagir avec eux en temps réel, comme dans un jeu vidéo. Les utilisateurs peuvent également étendre ou modifier l'environnement en fournissant des invites textuelles supplémentaires, ce qui permet d'effectuer des changements à la volée sans avoir à redémarrer la simulation. 

Ce qui rend le dernier modèle Genie de Google particulièrement intéressant, c'est qu'il peut être utilisé pour former des agents d'intelligence artificielle. Il s'agit d'apprendre aux agents d'IA à prendre des décisions ou à effectuer des tâches en utilisant des données et des informations en retour. En utilisant un environnement 3D simulé au lieu du monde réel, les chercheurs peuvent éviter un grand nombre de défis, de coûts et de risques liés à la formation dans le monde réel.

Google Genie 3 peut également simuler des scénarios complexes, tels que l'essai d'une voiture autonome conduisant par mauvais temps ou d'une combinaison à ailes glissant sur un terrain montagneux. 

Dans cet article, nous allons découvrir Google Genie 3 et ses possibilités. Commençons par le commencement !

Fig. 1. Image d'une simulation Genie 3 montrant une combinaison à ailes en train de planer.(Source)

Bref historique des modèles Genie de Google

Avant de nous plonger dans les modèles Genie de Google DeepMind, il convient de mieux comprendre ce que sont les modèles mondiaux. 

Les modèles de monde sont des systèmes d'intelligence artificielle qui apprennent les règles du monde réel telles que la physique, le mouvement et les relations spatiales à partir de textes, d'images, de vidéos et d'ensembles de données sur les mouvements. Cela leur permet de créer des scènes réalistes et de prédire leur évolution. Les modèles Genie sont des exemples de ces systèmes.

Voici un aperçu des premiers modèles de Google Genie qui ont ouvert la voie à Genie 3 :

  • Genie 1 : Genie 1, souvent appelé simplement Google Genie, était le premier modèle de monde IA de Google DeepMind capable de créer des environnements virtuels interactifs. Les utilisateurs pouvaient décrire un monde avec du texte, des images, des photos ou même des croquis, et Genie le générait, leur permettant de contrôler les actions au sein de la scène. Il a été conçu pour traiter les données vidéo au fil du temps, prédire l'image suivante et traduire les entrées de l'utilisateur en actions dans le monde.
  • Genie 2 : S'appuyant sur les capacités de Google Genie, Genie 2 pouvait créer un large éventail de mondes 3D détaillés et interactifs. En tant que modèle de monde, il simule des environnements virtuels et réagit de manière réaliste à des actions telles que sauter, nager ou déplacer des objets. Entraîné sur une collection massive de vidéos, il présentait des interactions d'objets réalistes et des mouvements de personnages réalistes.

Qu'est-ce que Genie 3 ? Le nouveau modèle d'IA de Google

S'appuyant sur les modèles Genie précédents, Genie 3 est le plus récent et le plus avancé de la série. Il s'appuie en particulier sur Genie 2, qui a pu générer de nouveaux environnements virtuels, et sur Veo 3, le dernier modèle de génération vidéo de Google DeepMind. Veo 3 démontre une compréhension approfondie de la physique et de la manière dont les objets interagissent dans le monde réel.

Alors que Veo 3 utilise un moteur physique codé en dur, Google Genie 3 apprend lui-même comment fonctionne la physique en utilisant une méthode connue sous le nom d'apprentissage auto-supervisé. Il s'agit d'une technique d'apprentissage de l'IA dans laquelle un modèle d'IA apprend des modèles et des relations à partir de données non étiquetées en générant ses propres signaux d'apprentissage. 

La capacité d'apprentissage auto-supervisé de Google Genie 3 est cruciale pour former les systèmes d'IA, tels que les agents ou les robots d'IA, à gérer diverses tâches. En fait, les chercheurs de Google DeepMind considèrent Genie 3 comme une étape importante vers la création d'une intelligence générale artificielle (AGI)

Fig. 2. Exemple d'utilisation de Google Genie 3 pour simuler le contrôle d'un rover robotisé.(Source)

L'AGI est une forme théorique d'intelligence artificielle capable de comprendre et d'apprendre n'importe quelle tâche ou n'importe quel sujet et d'appliquer ces connaissances à différentes situations, à l'instar d'un être humain. Contrairement aux modèles d'intelligence artificielle actuels, qui sont conçus pour des tâches spécifiques et peinent à transférer leurs compétences à de nouveaux problèmes, l'IAG serait capable de s'adapter et d'apprendre dans un large éventail de contextes.

Principales caractéristiques de Google Genie 3 relatives à la construction d'un monde d'IA

Voici quelques-unes des principales fonctions prises en charge par Genie 3 :

  • Génération d'un monde texte-3D : Il peut transformer un simple texte (par exemple, "un robot qui marche dans la rue") en un environnement jouable en 3D avec des commandes de mouvement de base.
  • Événements mondiaux pouvant faire l'objet d'une invite : Les utilisateurs peuvent modifier dynamiquement l'environnement en tapant de nouvelles commandes (par exemple, ajouter de la pluie dans la rue).
  • Mémoire visuelle : Genie 3 peut se souvenir d'objets laissés dans l'environnement et vous permettre de les revoir plus tard, pendant environ une minute.
  • Sortie vidéo fluide et constante : Il peut maintenir une sortie vidéo de 24 fps (images par seconde) à une résolution de 720p, avec un engagement plus long par rapport à Genie 2.
Fig. 3. Google Genie 3 peut générer des résultats qui durent plus longtemps que ceux produits par Genie 2(Source).

De l'éducation au jeu : Applications de Genie 3 de Google DeepMind

Google Genie 3 peut rendre l'apprentissage, la recherche et la formation plus immersifs et attrayants. Par exemple, dans les salles de classe, il peut donner vie à l'histoire, aux sciences ou à la géographie en permettant aux élèves d'explorer des villes anciennes ou de voyager dans l'espace. De même, pour les développeurs d'intelligence artificielle, il offre des mondes virtuels réalistes pour pratiquer des stratégies, relever des défis et améliorer les capacités de prise de décision.

Les scientifiques peuvent également l'utiliser pour créer des simulations contrôlées afin de tester des idées, d'étudier des écosystèmes ou d'observer le comportement d'objets. Une autre application intéressante est le développement de jeux vidéo. Les développeurs de jeux peuvent transformer des invites textuelles en mondes de jeu détaillés, ce qui accélère le développement et réduit la nécessité d'avoir des équipes nombreuses.

Fig. 4. Genie 3 permet de concevoir des jeux amusants, colorés et interactifs(Source).

Limites de Google Genie 3 en tant que modèle mondial

Si Google Genie 3 offre de nombreuses fonctionnalités et avantages, il est également important de prendre en compte ses inconvénients. 

Voici quelques limitations à prendre en compte :

  • Un champ d'action limité : Bien que vous puissiez déclencher de nombreux événements dans le monde virtuel, tous ne sont pas exécutés par l'agent lui-même. Les actions qu'un agent peut effectuer directement sont encore limitées.
  • Interaction avec d'autres agents : La création d'interactions réalistes entre plusieurs agents indépendants dans le même environnement est encore un travail en cours.
  • Précision dans le monde réel : Google Genie 3 ne peut pas encore recréer des lieux réels avec une précision géographique parfaite.

Principaux enseignements

Google Genie 3 représente une avancée significative dans la création de mondes 3D réalistes et interactifs grâce à l'IA. Il peut donner vie à des idées à partir de simples invites textuelles, simuler la physique et même former des systèmes d'IA dans des espaces virtuels sûrs. 

Bien qu'elle ait encore des limites, elle ouvre de nombreuses possibilités pour la recherche, les jeux et le développement de l'IA. Il s'agit également d'une étape cruciale vers des systèmes d'intelligence artificielle capables de penser et d'apprendre davantage comme les humains.

Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez des innovations dans des secteurs tels que l 'IA dans le commerce de détail et l'IA de vision dans la fabrication. Pour vous lancer dans la vision par ordinateur dès aujourd'hui, consultez nos options de licence.

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers