En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez comment Google Gemini Robotics améliore les robots alimentés par l'IA grâce à l'intelligence multimodale, en stimulant l'adaptabilité, la dextérité et l'interaction humaine transparente.
Pendant des décennies, les robots ont symbolisé l'avenir, apparaissant dans les laboratoires de recherche, les films de science-fiction et les vitrines de prototypes industriels de pointe. Aujourd'hui, grâce aux progrès récents de l'intelligence artificielle (IA), ces prototypes sortent des environnements contrôlés pour entrer dans le monde réel.
Plus précisément, avec Gemini Robotics, Google se rapproche de la technologie nécessaire pour construire des robots plus intelligents. Lancés le 12 mars 2025, le modèle Gemini Robotics et son compagnon, Gemini Robotics-ER (Embodied Reasoning), sont les dernières innovations de Google DeepMind.
Ils s'appuient sur Gemini 2.0, un grand modèle de langage (LLM) multimodal qui peut traiter et générer divers types de données, notamment du texte, des images, de l'audio et de la vidéo, facilitant ainsi des interactions plus polyvalentes et plus naturelles. Ces modèles transposent les capacités multimodales de Gemini 2.0 dans le monde physique, ce qui permet de créer des robots plus dextres, plus interactifs et plus intelligents.
Par exemple, contrairement aux robots traditionnels qui suivent des instructions fixes, les robots intégrés aux modèles de Gemini Robotics peuvent traiter la vision et le langage. Ils peuvent ainsi prendre des décisions en temps réel et s'adapter à des environnements changeants.
Dans cet article, nous allons découvrir Gemini Robotics et Gemini Robotics-ER, le fonctionnement de ces modèles, ainsi que leurs principales caractéristiques et applications. C'est parti !
Fig. 1. Gemini Robotics aide les robots à accomplir efficacement des tâches multiples.
Présentation de Google Gemini Robotics
Gemini Robotics de Google est un modèle d'IA avancé conçu pour donner aux robots la capacité de percevoir, de raisonner et d'interagir dans le monde physique. En tant que modèle vision-langage-action (VLA), il permet aux robots de traiter des instructions, d'interpréter leur environnement et d'exécuter des tâches complexes avec une grande précision.
Le modèle Gemini Robotics-ER améliore la capacité d'un robot à comprendre les relations spatiales entre la position des objets, leurs mouvements et leurs interactions. Cela permet aux robots d'anticiper les actions et d'ajuster leurs mouvements en conséquence.
Prenons l'exemple d'un robot qui doit enrouler un fil autour d'un casque. Gemini Robotics-ER l'aide à comprendre la scène, à reconnaître la forme et la flexibilité du fil, à identifier la structure de l'écouteur et à prédire comment le fil se pliera lors de son déplacement. Ensuite, Gemini Robotics traduit cette compréhension en action, en coordonnant les deux mains pour manipuler le fil en douceur, en ajustant sa prise pour éviter l'enchevêtrement et en assurant un enroulement sûr.
En combinant la perception et l'action, Gemini Robotics et Gemini Robotics-ER créent un système intelligent qui permet aux robots d'exécuter efficacement des tâches dextres dans des environnements dynamiques.
Fig. 2. Vue d'ensemble de la famille de modèles Gemini Robotics.
L'IA dans la robotique : Exploration du fonctionnement de Gemini Robotics
Ensuite, examinons de plus près chaque modèle pour mieux comprendre comment Gemini Robotics et Gemini Robotics-ER fonctionnent ensemble pour équilibrer flexibilité et rapidité d'action.
D'une part, Gemini Robotics-ER s'appuie sur deux mécanismes clés : la génération de code à partir de zéro et l'apprentissage en contexte (ICL) à quelques reprises. Grâce à la génération de code à partir de zéro, le modèle peut créer un code pour contrôler le robot sur la base d'instructions de tâches, d'images et de données en temps réel, sans nécessiter de formation supplémentaire.
De même, avec l'apprentissage à partir de quelques exemples, le modèle s'adapte à de nouvelles tâches en apprenant à partir de quelques exemples seulement, ce qui réduit la nécessité d'un entraînement approfondi. Ensemble, ces méthodes permettent au robot d'effectuer rapidement des tâches complexes et de s'adapter à de nouveaux défis avec un minimum d'efforts.
Gemini Robotics, quant à lui, est conçu pour la vitesse et l'efficacité. Il utilise un système hybride composé d'un réseau fédérateur en nuage et d'un décodeur d'action embarqué. L'épine dorsale basée sur l'informatique dématérialisée traite les informations rapidement, avec un temps de latence entre la demande et la réponse inférieur à 160 millisecondes.
Ensuite, le décodeur embarqué aide à traduire ces données en actions en temps réel. Ce système combiné permet d'obtenir un temps de réponse global d'environ 250 millisecondes, avec une vitesse de contrôle de 50 actions par seconde.
Fig. 3. Comprendre comment Gemini Robotics prend en charge le contrôle des robots en temps réel.
Principales capacités de Gemini Robotics
Voici un aperçu des principales caractéristiques de Gemini Robotics :
Généralité: Il peut s'adapter aux changements d'éclairage, d'arrière-plan et d'objets tout en restant précis. Il comprend également les commandes paraphrasées ou multilingues et peut ajuster ses mouvements en fonction des conditions.
Interactivité: Ce modèle peut traiter un large éventail de commandes en langage naturel et y répondre de manière intuitive. Il ajuste également ses actions en fonction des changements de l'environnement en temps réel, ce qui le rend idéal pour la collaboration homme-robot.
Dextérité: Un robot équipé de ce modèle peut effectuer des tâches complexes et précises, comme plier des origamis ou manipuler des objets délicats. Qu'il s'agisse d'un processus étape par étape ou d'actions rapides, le modèle peut aider à les exécuter efficacement.
Des réalisations multiples: Il fonctionne sur différentes plateformes robotiques, comme les systèmes à deux bras et les robots humanoïdes, avec peu d'ajustements. Il s'adapte rapidement à de nouvelles tâches tout en maintenant des performances élevées.
Fig. 4. Google Gemini Robotics travaille sur différentes plateformes robotiques.
Principales capacités de Gemini Robotics - ER
Voici quelques-unes des principales caractéristiques de Gemini Robotics-ER qui aident les robots à comprendre le monde et à interagir avec lui :
Détection et suivi d'objets et le suivi d'objets : Il peut être utilisé pour identifier et suivre des objets dans des espaces 2D et 3D. En utilisant des requêtes en langage naturel, il aide les robots à trouver des objets et à prédire leur position, que ce soit en fonction de leur type, de leur emplacement ou de leur fonction.
Pointer: Cette fonction permet au modèle de localiser des objets ou des parties spécifiques d'une image à l'aide de coordonnées précises. Elle peut être utilisée pour aider les robots à localiser des objets entiers, des parties d'objets ou même des espaces vides.
Prédiction de la préhension: Gemini Robotics-ER peut être utilisé pour déterminer la meilleure façon de saisir des objets en fonction de leur forme et de leur fonction. Il prédit où saisir, qu'il s'agisse d'une banane ou de la poignée d'une tasse, ce qui permet aux robots de manipuler les objets avec précaution.
Raisonnement sur la trajectoire: Le modèle peut être utilisé pour planifier des trajectoires de déplacement en prédisant des séquences d'actions. Par exemple, il peut guider la main d'un robot vers un outil ou définir des points de passage pour une tâche spécifique, aidant ainsi le robot à accomplir ses tâches de manière efficace.
Correspondance multi-vues: Cette fonction aide le modèle à comprendre les structures 3D en comparant la façon dont les objets apparaissent sous différents angles. Elle peut être utilisée pour améliorer le raisonnement spatial, ce qui permet aux robots de mieux interagir avec les objets dans des environnements dynamiques.
Fig. 5. Gemini Robotics-ER peut effectuer une grande variété de tâches.
Applications des modèles de Google Gemini Robotics
Maintenant que nous avons discuté des principales capacités de Gemini Robotics et de Gemini Robotics-ER, nous allons nous pencher sur leurs applications réelles dans diverses industries.
Google Gemini Robotics peut être utilisé dans l'industrie manufacturière
Dans le domaine de la fabrication, la précision et la vitesse sont importantes, mais c'est l'adaptabilité qui assure le bon fonctionnement de l'ensemble. Par exemple, un robot industriel alimenté par Gemini peut assembler un système de poulie en identifiant les bons composants, en les positionnant correctement et en manipulant un élastique flexible avec une force précise.
Il peut étirer la bande, l'enrouler autour des poulies et la fixer sans rupture ni désalignement. Si la configuration change ou si la tâche varie, le robot peut s'adapter sans avoir besoin d'une reprogrammation importante. Cette automatisation intelligente réduit les erreurs, améliore l'efficacité et assure le bon déroulement des processus de fabrication.
Fig. 6. Un robot industriel à deux bras place avec précision un élastique sur un système de poulies.
Des maisons intelligentes grâce à Gemini Robotics
Les emplois du temps chargés peuvent rendre difficile l'accomplissement des tâches ménagères. Les robots intelligents peuvent prendre en charge des tâches telles que le nettoyage, le tri des courses et même la préparation des repas, facilitant ainsi la vie quotidienne.
Cela pourrait ressembler à un robot préparant un sac à lunch, sélectionnant et plaçant soigneusement les aliments à l'intérieur tout en ajustant sa prise pour protéger les objets fragiles tels que les fruits ou les boîtes de conserve. Même si la disposition change, le robot peut s'adapter de lui-même, facilitant ainsi les tâches quotidiennes avec une supervision minimale.
Fig. 7. Un robot humanoïde emballe soigneusement un sac à lunch.
Avantages et inconvénients de l'utilisation de Gemini Robotics
Gemini Robotics élargit les possibilités des robots, de la fabrication de précision à l'assistance domestique intelligente. Voici quelques avantages clés de l'utilisation de Gemini Robotics dans diverses applications :
Formation formation minimale: Contrairement aux robots traditionnels, les robots pilotés par Gemini Robotics peuvent apprendre à partir de quelques démonstrations, ce qui réduit les coûts de formation et facilite leur déploiement.
Sécurité accrue : Dans les environnements dangereux, les robots intégrés à Gemini Robotics peuvent effectuer des tâches dangereuses, réduisant ainsi le risque de blessure pour les travailleurs humains.
Caractéristiques personnalisables : La flexibilité de Gemini Robotics signifie qu'il peut être adapté pour répondre aux besoins spécifiques de différentes industries ou entreprises, ce qui permet des applications spécialisées et des solutions uniques.
Si Gemini Robotics offre plusieurs avantages, il est également important de tenir compte des limites suivantes :
Difficultés liées aux relations spatiales: Ces modèles peuvent avoir des difficultés à suivre les relations spatiales sur de longues séquences vidéo, ce qui affecte leur capacité à suivre et à comprendre les objets dans le temps.
Manque de précision numérique : Les prédictions du modèle, comme les points et les boîtes englobantes, peuvent ne pas être suffisamment précises pour les tâches qui nécessitent un contrôle fin, comme les tâches robotiques délicates.
Tâches complexes: Gemini Robotics peut éprouver des difficultés à gérer des tâches complexes nécessitant un raisonnement en plusieurs étapes et des mouvements précis, en particulier dans des situations nouvelles ou peu familières.
L'avenir de l'IA dans la robotique
Alors que l'IA continue de progresser, des modèles tels que Gemini Robotics et Gemini Robotics-ER sont à l'origine de l'avenir de la robotique. Les améliorations futures se concentreront probablement sur l'amélioration du raisonnement en plusieurs étapes, permettant aux robots de décomposer les tâches en étapes logiques pour une plus grande précision.
Un autre domaine clé de développement sur lequel Google DeepMind prévoit de travailler est la formation basée sur la simulation. En apprenant dans des environnements virtuels avant d'être déployés dans le monde réel, les robots peuvent affiner leur prise de décision et leurs mouvements, minimisant ainsi les erreurs dans les applications pratiques.
L'évolution de ces technologies pourrait ouvrir la voie à un avenir où les robots seront plus autonomes, plus adaptables et capables de travailler en toute transparence aux côtés des humains dans la vie de tous les jours.
Principaux enseignements
Gemini Robotics représente un grand pas en avant dans l'automatisation basée sur l'IA, en reliant l'intelligence numérique aux tâches physiques du monde réel. En combinant la vision, le langage et l'apprentissage par l'action, ces robots peuvent accomplir des tâches complexes avec précision et adaptabilité.
Les robots devenant de plus en plus intelligents, ils joueront probablement un rôle plus important dans la vie quotidienne, modifiant la façon dont les humains et les machines travaillent ensemble. Ces progrès nous rapprochent d'un monde intelligent et plus connecté, où l'automatisation pilotée par l'IA améliore à la fois les industries et les tâches quotidiennes.