Google Genie 3 : DeepMind dévoile un nouveau modèle d'IA

Le 5 août 2025, Google DeepMind a publié sa dernière version du modèle Genie, connue sous le nom de Genie 3. Il s'agit d'un nouveau modèle d'IA capable de convertir les invites textuelles d'un utilisateur en environnements dynamiques et interactifs.

Ces environnements, ou mondes d'IA, permettent à l'utilisateur de naviguer et d'interagir avec eux en temps réel, un peu comme dans un jeu vidéo. Les utilisateurs peuvent également étendre ou modifier l'environnement en fournissant des invites textuelles supplémentaires, ce qui permet d'effectuer des changements à la volée sans redémarrer la simulation.

Ce qui rend le dernier modèle Genie de Google particulièrement percutant, c'est qu'il peut être utilisé pour entraîner des agents d'IA. Cela implique d'enseigner aux agents d'IA à prendre des décisions ou à effectuer des tâches en utilisant des données et du feedback. En utilisant un environnement 3D simulé au lieu du monde réel, les chercheurs peuvent éviter bon nombre des défis, des coûts et des risques de l'entraînement dans le monde réel.

Google Genie 3 peut également simuler des scénarios complexes, tels que le test d'une voiture autonome conduisant par mauvais temps ou d'une wingsuit planant à travers un terrain montagneux.

Dans cet article, nous allons explorer Google Genie 3 et ses capacités. Commençons !

Fig 1. Une image d'une simulation Genie 3 montrant une personne en wingsuit en vol. (Source)

‍

Une brève histoire des modèles Genie de Google

Avant de nous plonger dans les modèles Genie de Google DeepMind, essayons de mieux comprendre ce que sont les modèles du monde.

Les modèles du monde sont des systèmes d'IA qui apprennent les règles du monde réel comme la physique, le mouvement et les relations spatiales à partir de textes, d'images, de vidéos et d'ensembles de données de mouvement. Cela leur permet de créer des scènes réalistes et de prédire leur évolution. Les modèles Genie sont des exemples de tels systèmes.

Voici un bref aperçu des premiers modèles Google Genie qui ont ouvert la voie à Genie 3 :

Genie 1 : Genie 1, souvent appelé simplement Google Genie, était le premier modèle mondial d'IA de Google DeepMind capable de créer des environnements virtuels interactifs. Les utilisateurs pouvaient décrire un monde avec du texte, des images, des photos ou même des croquis, et Genie le générait, leur permettant de contrôler les actions dans la scène. Il a été conçu pour traiter les données vidéo au fil du temps, prédire l'image suivante et traduire les entrées de l'utilisateur en actions dans le monde.

Genie 2 : S'appuyant sur les capacités de Google Genie, Genie 2 pouvait créer un large éventail de mondes 3D interactifs et détaillés. En tant que modèle mondial, il simulait des environnements virtuels et répondait de manière réaliste aux actions telles que sauter, nager ou déplacer des objets. Entraîné sur une collection massive de vidéos, il présentait des interactions d'objets réalistes et des mouvements de personnages réalistes.

Qu'est-ce que Genie 3 ? Le nouveau modèle d'IA de Google

S'appuyant sur les modèles Genie précédents, Genie 3 est le dernier et le plus avancé de la série. Il s'appuie particulièrement sur Genie 2, qui pouvait générer de nouveaux environnements virtuels, et Veo 3, le dernier modèle de génération vidéo de Google DeepMind. Veo 3 démontre une compréhension approfondie de la physique et de la façon dont les objets interagissent dans le monde réel.

Alors que Veo 3 utilise un moteur physique codé en dur, Google Genie 3 s'enseigne lui-même le fonctionnement de la physique à l'aide d'une méthode appelée apprentissage auto-supervisé. Il s'agit d'une technique d'apprentissage de l'IA où un modèle d'IA apprend les modèles et les relations à partir de données non étiquetées en générant ses propres signaux d'apprentissage.

La capacité d'apprentissage auto-supervisé de Google Genie 3 est cruciale pour la formation de systèmes d'IA, tels que des agents d'IA ou des robots d'IA, pour gérer diverses tâches. En fait, les chercheurs de Google DeepMind considèrent Genie 3 comme une étape importante vers la création d'Intelligence Artificielle Générale (IAG).

Fig. 2. Un exemple d'utilisation de Google Genie 3 pour simuler le contrôle d'un rover robotique. (Source)

‍

L'AGI est une forme théorique d'IA capable de comprendre et d'apprendre n'importe quelle tâche ou sujet et d'appliquer ces connaissances dans différentes situations, un peu comme un humain. Contrairement aux modèles d'intelligence artificielle actuels, qui sont conçus pour des tâches spécifiques et ont du mal à transférer leurs compétences à de nouveaux problèmes, l'AGI serait capable de s'adapter et d'apprendre dans un large éventail de contextes.

Principales caractéristiques de Google Genie 3 liées à la construction d'un monde d'IA

Voici quelques-unes des principales fonctionnalités prises en charge par Genie 3 :

Génération de monde 3D à partir de texte : Elle peut transformer une simple invite textuelle (par exemple, « un robot qui marche dans la rue ») en un environnement jouable de type 3D avec des commandes de mouvement de base.

Événements mondiaux pilotables par prompts : Les utilisateurs peuvent modifier dynamiquement l'environnement en saisissant de nouvelles commandes (par exemple, ajouter de la pluie dans la rue).

Mémoire visuelle : Genie 3 peut se souvenir des objets laissés dans l'environnement et vous permettre de les revoir plus tard, pendant environ une minute.

Sortie vidéo fluide et cohérente : Il peut maintenir une sortie vidéo de 24 fps (images par seconde) à une résolution de 720p, avec un engagement plus long par rapport à Genie 2.

Fig 3. Google Genie 3 peut générer des sorties qui durent plus longtemps que celles produites par Genie 2. (Source)

‍

De l'éducation aux jeux : Applications de Genie 3 de Google DeepMind

Google Genie 3 peut rendre l'apprentissage, la recherche et la formation plus immersifs et engageants. Par exemple, dans les salles de classe, il peut donner vie à l'histoire, à la science ou à la géographie en permettant aux élèves d'explorer des villes anciennes ou de voyager dans l'espace. De même, pour les développeurs d'intelligence artificielle, il offre des mondes virtuels réalistes pour pratiquer des stratégies, surmonter des défis et améliorer les compétences de prise de décision.

Les scientifiques peuvent également l'utiliser pour créer des simulations contrôlées afin de tester des idées, d'étudier des écosystèmes ou d'observer le comportement d'objets. Une autre application intéressante est le développement de jeux vidéo. Les développeurs de jeux peuvent transformer des invites textuelles en mondes de jeu détaillés, ce qui accélère le développement et réduit le besoin de grandes équipes.

Fig. 4. Des jeux amusants, colorés et interactifs peuvent être conçus à l'aide de Genie 3. (Source)

‍

Limites de Google Genie 3 en tant que modèle du monde

Bien que Google Genie 3 offre de nombreuses fonctionnalités et avantages, il est également important de tenir compte de ses inconvénients.

Voici quelques limitations à prendre en compte :

Plage d'action limitée : Bien que vous puissiez déclencher de nombreux événements dans le monde virtuel, tous ne sont pas exécutés par l'agent lui-même. Les actions qu'un agent peut effectuer directement sont encore limitées.

Interaction avec d'autres agents : La création d'interactions réalistes entre plusieurs agents indépendants dans le même environnement est encore un travail en cours.

Précision dans le monde réel : Google Genie 3 ne peut pas encore recréer des lieux du monde réel avec une précision géographique parfaite.

Principaux points à retenir

Google Genie 3 représente une avancée significative dans la création de mondes 3D interactifs et réalistes avec l'IA. Il peut donner vie à des idées à partir de simples invites textuelles, simuler la physique et même former des systèmes d'IA dans des espaces virtuels sécurisés.

Bien qu'elle ait encore des limites, elle ouvre de nombreuses possibilités pour la recherche, les jeux et le développement de l'IA. C'est également une étape cruciale vers des systèmes AGI capables de penser et d'apprendre davantage comme les humains.

Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez les innovations dans des secteurs tels que l'IA dans le commerce de détail et la Vision IA dans la fabrication. Pour commencer dès aujourd'hui avec la vision par ordinateur, consultez nos options de licence.

Google Genie 3 donne vie à votre monde 3D avec l'IA

Une brève histoire des modèles Genie de Google

Qu'est-ce que Genie 3 ? Le nouveau modèle d'IA de Google

Principales caractéristiques de Google Genie 3 liées à la construction d'un monde d'IA

De l'éducation aux jeux : Applications de Genie 3 de Google DeepMind

Limites de Google Genie 3 en tant que modèle du monde

Principaux points à retenir

En savoir plus dans cette catégorie

Analyse des traces d'animaux dans la neige à l'aide de la vision par ordinateur

L'IA de vision peut être utilisée pour détecter l'usure à l'intérieur d'un pneu

L'IA peut-elle détecter les actions humaines ? Exploration de la reconnaissance d'activité

Construisons ensemble l'avenir
de l'IA !

Google Genie 3 donne vie à votre monde 3D avec l'IA

Une brève histoire des modèles Genie de Google

Qu'est-ce que Genie 3 ? Le nouveau modèle d'IA de Google

Principales caractéristiques de Google Genie 3 liées à la construction d'un monde d'IA

De l'éducation aux jeux : Applications de Genie 3 de Google DeepMind

Limites de Google Genie 3 en tant que modèle du monde

Principaux points à retenir

En savoir plus dans cette catégorie

Analyse des traces d'animaux dans la neige à l'aide de la vision par ordinateur

L'IA de vision peut être utilisée pour détecter l'usure à l'intérieur d'un pneu

L'IA peut-elle détecter les actions humaines ? Exploration de la reconnaissance d'activité

Construisons ensemble l'avenir de l'IA !

Google Genie 3 donne vie à votre monde 3D avec l'IA

Construisons ensemble l'avenir
de l'IA !