Le modèle de monde IA Genie 3 de DeepMind convertit des textes ou des images en environnements 3D. Cette avancée marque un nouveau pas vers une intelligence semblable à celle de l'homme.
.webp)
Le modèle de monde IA Genie 3 de DeepMind convertit des textes ou des images en environnements 3D. Cette avancée marque un nouveau pas vers une intelligence semblable à celle de l'homme.
Le 5 août 2025, Google DeepMind a publié sa dernière version du modèle Genie, appelée Genie 3. Il s'agit d'un nouveau modèle d'IA capable de convertir les invites textuelles d'un utilisateur en environnements dynamiques et interactifs.
Ces environnements, ou mondes IA, permettent à l'utilisateur de naviguer et d'interagir avec eux en temps réel, comme dans un jeu vidéo. Les utilisateurs peuvent également étendre ou modifier l'environnement en fournissant des invites textuelles supplémentaires, ce qui permet d'effectuer des changements à la volée sans avoir à redémarrer la simulation.
Ce qui rend le dernier modèle Genie de Google particulièrement intéressant, c'est qu'il peut être utilisé pour former des agents d'intelligence artificielle. Il s'agit d'apprendre aux agents d'IA à prendre des décisions ou à effectuer des tâches en utilisant des données et des informations en retour. En utilisant un environnement 3D simulé au lieu du monde réel, les chercheurs peuvent éviter un grand nombre de défis, de coûts et de risques liés à la formation dans le monde réel.
Google Genie 3 peut également simuler des scénarios complexes, tels que l'essai d'une voiture autonome conduisant par mauvais temps ou d'une combinaison à ailes glissant sur un terrain montagneux.
Dans cet article, nous allons découvrir Google Genie 3 et ses possibilités. Commençons par le commencement !
Avant de nous plonger dans les modèles Genie de Google DeepMind, il convient de mieux comprendre ce que sont les modèles mondiaux.
Les modèles de monde sont des systèmes d'intelligence artificielle qui apprennent les règles du monde réel telles que la physique, le mouvement et les relations spatiales à partir de textes, d'images, de vidéos et d'ensembles de données sur les mouvements. Cela leur permet de créer des scènes réalistes et de prédire leur évolution. Les modèles Genie sont des exemples de ces systèmes.
Voici un aperçu des premiers modèles de Google Genie qui ont ouvert la voie à Genie 3 :
S'appuyant sur les modèles Genie précédents, Genie 3 est le plus récent et le plus avancé de la série. Il s'appuie en particulier sur Genie 2, qui a pu générer de nouveaux environnements virtuels, et sur Veo 3, le dernier modèle de génération vidéo de Google DeepMind. Veo 3 démontre une compréhension approfondie de la physique et de la manière dont les objets interagissent dans le monde réel.
Alors que Veo 3 utilise un moteur physique codé en dur, Google Genie 3 apprend lui-même comment fonctionne la physique en utilisant une méthode connue sous le nom d'apprentissage auto-supervisé. Il s'agit d'une technique d'apprentissage de l'IA dans laquelle un modèle d'IA apprend des modèles et des relations à partir de données non étiquetées en générant ses propres signaux d'apprentissage.
La capacité d'apprentissage auto-supervisé de Google Genie 3 est cruciale pour former les systèmes d'IA, tels que les agents ou les robots d'IA, à gérer diverses tâches. En fait, les chercheurs de Google DeepMind considèrent Genie 3 comme une étape importante vers la création d'une intelligence générale artificielle (AGI).
L'AGI est une forme théorique d'intelligence artificielle capable de comprendre et d'apprendre n'importe quelle tâche ou n'importe quel sujet et d'appliquer ces connaissances à différentes situations, à l'instar d'un être humain. Contrairement aux modèles d'intelligence artificielle actuels, qui sont conçus pour des tâches spécifiques et peinent à transférer leurs compétences à de nouveaux problèmes, l'IAG serait capable de s'adapter et d'apprendre dans un large éventail de contextes.
Voici quelques-unes des principales fonctions prises en charge par Genie 3 :
Google Genie 3 peut rendre l'apprentissage, la recherche et la formation plus immersifs et attrayants. Par exemple, dans les salles de classe, il peut donner vie à l'histoire, aux sciences ou à la géographie en permettant aux élèves d'explorer des villes anciennes ou de voyager dans l'espace. De même, pour les développeurs d'intelligence artificielle, il offre des mondes virtuels réalistes pour pratiquer des stratégies, relever des défis et améliorer les capacités de prise de décision.
Les scientifiques peuvent également l'utiliser pour créer des simulations contrôlées afin de tester des idées, d'étudier des écosystèmes ou d'observer le comportement d'objets. Une autre application intéressante est le développement de jeux vidéo. Les développeurs de jeux peuvent transformer des invites textuelles en mondes de jeu détaillés, ce qui accélère le développement et réduit la nécessité d'avoir des équipes nombreuses.
Si Google Genie 3 offre de nombreuses fonctionnalités et avantages, il est également important de prendre en compte ses inconvénients.
Voici quelques limitations à prendre en compte :
Google Genie 3 représente une avancée significative dans la création de mondes 3D réalistes et interactifs grâce à l'IA. Il peut donner vie à des idées à partir de simples invites textuelles, simuler la physique et même former des systèmes d'IA dans des espaces virtuels sûrs.
Bien qu'elle ait encore des limites, elle ouvre de nombreuses possibilités pour la recherche, les jeux et le développement de l'IA. Il s'agit également d'une étape cruciale vers des systèmes d'intelligence artificielle capables de penser et d'apprendre davantage comme les humains.
Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez des innovations dans des secteurs tels que l 'IA dans le commerce de détail et l'IA de vision dans la fabrication. Pour vous lancer dans la vision par ordinateur dès aujourd'hui, consultez nos options de licence.