Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Google Genie 3 donne vie à votre monde en 3D grâce à l'IA

Abirami Vina

4 min de lecture

15 août 2025

Le modèle mondial d'IA Genie 3 de DeepMind convertit des invites de texte ou d'image en environnements 3D. Cette avancée marque une autre étape vers une intelligence semblable à celle de l'humain.

Le 5 août 2025, Google DeepMind a publié sa dernière version du modèle Genie, appelée Genie 3. Il s'agit d'un nouveau modèle d'IA capable de convertir les invites textuelles d'un utilisateur en environnements dynamiques et interactifs. 

Ces environnements, ou mondes d'IA, permettent à l'utilisateur de naviguer et d'interagir avec eux en temps réel, un peu comme dans un jeu vidéo. Les utilisateurs peuvent également étendre ou modifier l'environnement en fournissant des invites textuelles supplémentaires, ce qui permet d'effectuer des changements à la volée sans redémarrer la simulation. 

Ce qui rend le dernier modèle Genie de Google particulièrement intéressant, c'est qu'il peut être utilisé pour former des agents d'intelligence artificielle. Il s'agit d'apprendre aux agents d'IA à prendre des décisions ou à effectuer des tâches en utilisant des données et des informations en retour. En utilisant un environnement 3D simulé au lieu du monde réel, les chercheurs peuvent éviter un grand nombre de défis, de coûts et de risques liés à la formation dans le monde réel.

Google Genie 3 peut également simuler des scénarios complexes, tels que l'essai d'une voiture autonome conduisant par mauvais temps ou d'une combinaison à ailes glissant sur un terrain montagneux. 

Dans cet article, nous allons découvrir Google Genie 3 et ses possibilités. Commençons par le commencement !

Fig 1. Une image d'une simulation Genie 3 montrant une personne en wingsuit en vol. (Source)

Bref historique des modèles Genie de Google

Avant de nous plonger dans les modèles Genie de Google DeepMind, il convient de mieux comprendre ce que sont les modèles mondiaux. 

Les modèles du monde sont des systèmes d'IA qui apprennent les règles du monde réel comme la physique, le mouvement et les relations spatiales à partir de textes, d'images, de vidéos et d'ensembles de données de mouvement. Cela leur permet de créer des scènes réalistes et de prédire leur évolution. Les modèles Genie sont des exemples de tels systèmes.

Voici un aperçu des premiers modèles de Google Genie qui ont ouvert la voie à Genie 3 :

  • Genie 1 : Genie 1, souvent appelé simplement Google Genie, était le premier modèle de monde IA de Google DeepMind capable de créer des environnements virtuels interactifs. Les utilisateurs pouvaient décrire un monde avec du texte, des images, des photos ou même des croquis, et Genie le générait, leur permettant de contrôler les actions au sein de la scène. Il a été conçu pour traiter les données vidéo au fil du temps, prédire l'image suivante et traduire les entrées de l'utilisateur en actions dans le monde.
  • Genie 2 : S'appuyant sur les capacités de Google Genie, Genie 2 pouvait créer un large éventail de mondes 3D détaillés et interactifs. En tant que modèle de monde, il simule des environnements virtuels et réagit de manière réaliste à des actions telles que sauter, nager ou déplacer des objets. Entraîné sur une collection massive de vidéos, il présentait des interactions d'objets réalistes et des mouvements de personnages réalistes.

Qu'est-ce que Genie 3 ? Le nouveau modèle d'IA de Google

S'appuyant sur les modèles Genie précédents, Genie 3 est le plus récent et le plus avancé de la série. Il s'appuie en particulier sur Genie 2, qui a pu générer de nouveaux environnements virtuels, et sur Veo 3, le dernier modèle de génération vidéo de Google DeepMind. Veo 3 démontre une compréhension approfondie de la physique et de la manière dont les objets interagissent dans le monde réel.

Alors que Veo 3 utilise un moteur physique codé en dur, Google Genie 3 apprend lui-même comment fonctionne la physique en utilisant une méthode connue sous le nom d'apprentissage auto-supervisé. Il s'agit d'une technique d'apprentissage de l'IA dans laquelle un modèle d'IA apprend des modèles et des relations à partir de données non étiquetées en générant ses propres signaux d'apprentissage. 

La capacité d'apprentissage auto-supervisé de Google Genie 3 est cruciale pour former les systèmes d'IA, tels que les agents ou les robots d'IA, à gérer diverses tâches. En fait, les chercheurs de Google DeepMind considèrent Genie 3 comme une étape importante vers la création d'une intelligence générale artificielle (AGI)

Fig. 2. Exemple d'utilisation de Google Genie 3 pour simuler le contrôle d'un rover robotisé.(Source)

L'AGI est une forme théorique d'IA capable de comprendre et d'apprendre n'importe quelle tâche ou sujet et d'appliquer ces connaissances dans différentes situations, un peu comme un humain. Contrairement aux modèles d'intelligence artificielle actuels, qui sont conçus pour des tâches spécifiques et ont du mal à transférer leurs compétences à de nouveaux problèmes, l'AGI serait capable de s'adapter et d'apprendre dans un large éventail de contextes.

Principales caractéristiques de Google Genie 3 relatives à la construction d'un monde d'IA

Voici quelques-unes des principales fonctionnalités prises en charge par Genie 3 :

  • Génération de monde 3D à partir de texte : Elle peut transformer une simple invite textuelle (par exemple, « un robot qui marche dans la rue ») en un environnement jouable de type 3D avec des commandes de mouvement de base.
  • Événements mondiaux pilotables par prompts : Les utilisateurs peuvent modifier dynamiquement l'environnement en saisissant de nouvelles commandes (par exemple, ajouter de la pluie dans la rue).
  • Mémoire visuelle : Genie 3 peut se souvenir des objets laissés dans l'environnement et vous permettre de les revoir plus tard, pendant environ une minute.
  • Sortie vidéo fluide et cohérente : Il peut maintenir une sortie vidéo de 24 fps (images par seconde) à une résolution de 720p, avec un engagement plus long par rapport à Genie 2.
Fig. 3. Google Genie 3 peut générer des résultats qui durent plus longtemps que ceux produits par Genie 2(Source).

De l'éducation au jeu : Applications de Genie 3 de Google DeepMind

Google Genie 3 peut rendre l'apprentissage, la recherche et la formation plus immersifs et attrayants. Par exemple, dans les salles de classe, il peut donner vie à l'histoire, aux sciences ou à la géographie en permettant aux élèves d'explorer des villes anciennes ou de voyager dans l'espace. De même, pour les développeurs d'intelligence artificielle, il offre des mondes virtuels réalistes pour pratiquer des stratégies, relever des défis et améliorer les capacités de prise de décision.

Les scientifiques peuvent également l'utiliser pour créer des simulations contrôlées afin de tester des idées, d'étudier des écosystèmes ou d'observer le comportement d'objets. Une autre application intéressante est le développement de jeux vidéo. Les développeurs de jeux peuvent transformer des invites textuelles en mondes de jeu détaillés, ce qui accélère le développement et réduit le besoin de grandes équipes.

Fig. 4. Des jeux amusants, colorés et interactifs peuvent être conçus à l'aide de Genie 3. (Source)

Limites de Google Genie 3 en tant que modèle mondial

Si Google Genie 3 offre de nombreuses fonctionnalités et avantages, il est également important de prendre en compte ses inconvénients. 

Voici quelques limitations à prendre en compte :

  • Plage d'action limitée : Bien que vous puissiez déclencher de nombreux événements dans le monde virtuel, tous ne sont pas exécutés par l'agent lui-même. Les actions qu'un agent peut effectuer directement sont encore limitées.
  • Interaction avec d'autres agents : La création d'interactions réalistes entre plusieurs agents indépendants dans le même environnement est encore un travail en cours.
  • Précision dans le monde réel : Google Genie 3 ne peut pas encore recréer des lieux réels avec une précision géographique parfaite.

Principaux points à retenir

Google Genie 3 représente une avancée significative dans la création de mondes 3D réalistes et interactifs grâce à l'IA. Il peut donner vie à des idées à partir de simples invites textuelles, simuler la physique et même former des systèmes d'IA dans des espaces virtuels sûrs. 

Bien qu'elle ait encore des limites, elle ouvre de nombreuses possibilités pour la recherche, les jeux et le développement de l'IA. C'est également une étape cruciale vers des systèmes AGI capables de penser et d'apprendre davantage comme les humains.

Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez les innovations dans des secteurs tels que l'IA dans le commerce de détail et la Vision IA dans la fabrication. Pour commencer dès aujourd'hui avec la vision par ordinateur, consultez nos options de licence.

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement