Le modèle mondial d'IA Genie 3 de DeepMind convertit des invites de texte ou d'image en environnements 3D. Cette avancée marque une autre étape vers une intelligence semblable à celle de l'humain.
.webp)
Le modèle mondial d'IA Genie 3 de DeepMind convertit des invites de texte ou d'image en environnements 3D. Cette avancée marque une autre étape vers une intelligence semblable à celle de l'humain.
Le 5 août 2025, Google DeepMind a publié sa dernière version du modèle Genie, connue sous le nom de Genie 3. Il s'agit d'un nouveau modèle d'IA capable de convertir les invites textuelles d'un utilisateur en environnements dynamiques et interactifs.
Ces environnements, ou mondes d'IA, permettent à l'utilisateur de naviguer et d'interagir avec eux en temps réel, un peu comme dans un jeu vidéo. Les utilisateurs peuvent également étendre ou modifier l'environnement en fournissant des invites textuelles supplémentaires, ce qui permet d'effectuer des changements à la volée sans redémarrer la simulation.
Ce qui rend le dernier modèle Genie de Google particulièrement percutant, c'est qu'il peut être utilisé pour entraîner des agents d'IA. Cela implique d'enseigner aux agents d'IA à prendre des décisions ou à effectuer des tâches en utilisant des données et du feedback. En utilisant un environnement 3D simulé au lieu du monde réel, les chercheurs peuvent éviter bon nombre des défis, des coûts et des risques de l'entraînement dans le monde réel.
Google Genie 3 peut également simuler des scénarios complexes, tels que le test d'une voiture autonome conduisant par mauvais temps ou d'une wingsuit planant à travers un terrain montagneux.
Dans cet article, nous allons explorer Google Genie 3 et ses capacités. Commençons !
Avant de nous plonger dans les modèles Genie de Google DeepMind, essayons de mieux comprendre ce que sont les modèles du monde.
Les modèles du monde sont des systèmes d'IA qui apprennent les règles du monde réel comme la physique, le mouvement et les relations spatiales à partir de textes, d'images, de vidéos et d'ensembles de données de mouvement. Cela leur permet de créer des scènes réalistes et de prédire leur évolution. Les modèles Genie sont des exemples de tels systèmes.
Voici un bref aperçu des premiers modèles Google Genie qui ont ouvert la voie à Genie 3 :
S'appuyant sur les modèles Genie précédents, Genie 3 est le dernier et le plus avancé de la série. Il s'appuie particulièrement sur Genie 2, qui pouvait générer de nouveaux environnements virtuels, et Veo 3, le dernier modèle de génération vidéo de Google DeepMind. Veo 3 démontre une compréhension approfondie de la physique et de la façon dont les objets interagissent dans le monde réel.
Alors que Veo 3 utilise un moteur physique codé en dur, Google Genie 3 s'enseigne lui-même le fonctionnement de la physique à l'aide d'une méthode appelée apprentissage auto-supervisé. Il s'agit d'une technique d'apprentissage de l'IA où un modèle d'IA apprend les modèles et les relations à partir de données non étiquetées en générant ses propres signaux d'apprentissage.
La capacité d'apprentissage auto-supervisé de Google Genie 3 est cruciale pour la formation de systèmes d'IA, tels que des agents d'IA ou des robots d'IA, pour gérer diverses tâches. En fait, les chercheurs de Google DeepMind considèrent Genie 3 comme une étape importante vers la création d'Intelligence Artificielle Générale (IAG).
L'AGI est une forme théorique d'IA capable de comprendre et d'apprendre n'importe quelle tâche ou sujet et d'appliquer ces connaissances dans différentes situations, un peu comme un humain. Contrairement aux modèles d'intelligence artificielle actuels, qui sont conçus pour des tâches spécifiques et ont du mal à transférer leurs compétences à de nouveaux problèmes, l'AGI serait capable de s'adapter et d'apprendre dans un large éventail de contextes.
Voici quelques-unes des principales fonctionnalités prises en charge par Genie 3 :
Google Genie 3 peut rendre l'apprentissage, la recherche et la formation plus immersifs et engageants. Par exemple, dans les salles de classe, il peut donner vie à l'histoire, à la science ou à la géographie en permettant aux élèves d'explorer des villes anciennes ou de voyager dans l'espace. De même, pour les développeurs d'intelligence artificielle, il offre des mondes virtuels réalistes pour pratiquer des stratégies, surmonter des défis et améliorer les compétences de prise de décision.
Les scientifiques peuvent également l'utiliser pour créer des simulations contrôlées afin de tester des idées, d'étudier des écosystèmes ou d'observer le comportement d'objets. Une autre application intéressante est le développement de jeux vidéo. Les développeurs de jeux peuvent transformer des invites textuelles en mondes de jeu détaillés, ce qui accélère le développement et réduit le besoin de grandes équipes.
Bien que Google Genie 3 offre de nombreuses fonctionnalités et avantages, il est également important de tenir compte de ses inconvénients.
Voici quelques limitations à prendre en compte :
Google Genie 3 représente une avancée significative dans la création de mondes 3D interactifs et réalistes avec l'IA. Il peut donner vie à des idées à partir de simples invites textuelles, simuler la physique et même former des systèmes d'IA dans des espaces virtuels sécurisés.
Bien qu'elle ait encore des limites, elle ouvre de nombreuses possibilités pour la recherche, les jeux et le développement de l'IA. C'est également une étape cruciale vers des systèmes AGI capables de penser et d'apprendre davantage comme les humains.
Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Rejoignez notre communauté active et découvrez les innovations dans des secteurs tels que l'IA dans le commerce de détail et la Vision IA dans la fabrication. Pour commencer dès aujourd'hui avec la vision par ordinateur, consultez nos options de licence.