Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Les modèles Google Gemini Robotics alimentent des robots plus intelligents

Abirami Vina

4 min de lecture

4 avril 2025

Découvrez comment Google Gemini Robotics améliore les robots basés sur l'IA grâce à l'intelligence multimodale, renforçant ainsi l'adaptabilité, la dextérité et l'interaction humaine transparente.

Depuis des décennies, les robots symbolisent l'avenir, apparaissant dans les laboratoires de recherche, les films de science-fiction et les présentations de prototypes industriels de pointe. Aujourd'hui, grâce aux récents progrès de l'intelligence artificielle (IA), ces prototypes sortent des environnements contrôlés pour entrer dans des applications du monde réel. 

Plus précisément, avec Gemini Robotics, Google se rapproche de la technologie nécessaire à la construction de robots plus intelligents. Lancés le 12 mars 2025, le modèle Gemini Robotics et son modèle compagnon, Gemini Robotics-ER (Embodied Reasoning), sont les dernières innovations de Google DeepMind. 

Ils sont basés sur Gemini 2.0, un grand modèle linguistique (LLM) multimodal capable de traiter et de générer divers types de données, notamment du texte, des images, de l'audio et de la vidéo, facilitant ainsi des interactions plus polyvalentes et naturelles. Ces modèles intègrent les capacités multimodales de Gemini 2.0 dans le monde physique, permettant ainsi des robots plus habiles, interactifs et intelligents.

Par exemple, contrairement aux robots traditionnels qui suivent des instructions fixes, les robots intégrés aux modèles Gemini Robotics peuvent traiter la vision et le langage. Cela leur permet de prendre des décisions en temps réel et de s'adapter aux environnements changeants.

Dans cet article, nous allons explorer Gemini Robotics et Gemini Robotics-ER, comment ces modèles fonctionnent, ainsi que leurs principales caractéristiques et applications. Commençons !

__wf_reserved_inherit
Fig 1. Gemini Robotics aide les robots à effectuer efficacement plusieurs tâches.

Présentation de Google Gemini Robotics

La robotique Gemini de Google est un modèle d'IA avancé conçu pour donner aux robots la capacité de percevoir, de raisonner et d'interagir dans le monde physique. En tant que modèle vision-langage-action (VLA), il permet aux robots de traiter les instructions, d'interpréter leur environnement et d'exécuter des tâches complexes avec une grande précision.

Parallèlement, le modèle Gemini Robotics-ER améliore la capacité d'un robot à comprendre les relations spatiales de la façon dont les objets sont positionnés, comment ils se déplacent et comment ils interagissent. Cela aide les robots à anticiper les actions et à ajuster leurs mouvements en conséquence. 

Par exemple, prenons une tâche où un robot doit enrouler un fil autour d'un casque. Gemini Robotics-ER l'aide à comprendre la scène, à reconnaître la forme et la flexibilité du fil, à identifier la structure du casque et à prédire comment le fil se pliera lorsqu'il se déplacera. Ensuite, Gemini Robotics traduit cette compréhension en action, coordonnant les deux mains pour manipuler le fil en douceur, ajustant sa prise pour éviter les enchevêtrements et assurant un enroulement sûr.

En combinant la perception et l'action, Gemini Robotics et Gemini Robotics-ER créent un système intelligent qui permet aux robots d'effectuer efficacement des tâches complexes dans des environnements dynamiques.

__wf_reserved_inherit
Fig 2. Un aperçu de la famille de modèles Gemini Robotics.

L'IA dans la robotique : Exploration du fonctionnement de Gemini Robotics

Ensuite, examinons de plus près chaque modèle pour mieux comprendre comment Gemini Robotics et Gemini Robotics-ER travaillent ensemble pour équilibrer flexibilité et actions rapides. 

D'une part, Gemini Robotics-ER exploite deux mécanismes clés : la génération de code zero-shot et l'apprentissage in-context (ICL) few-shot. Grâce à la génération de code zero-shot, le modèle peut créer du code pour contrôler le robot en fonction des instructions de la tâche, des images et des données en temps réel sans nécessiter de formation supplémentaire. 

De même, avec l'apprentissage few-shot, le modèle s'adapte à de nouvelles tâches en apprenant à partir de quelques exemples seulement, ce qui réduit le besoin d'une formation approfondie. Ensemble, ces méthodes permettent au robot d'effectuer rapidement des tâches complexes et de s'adapter à de nouveaux défis avec un minimum d'effort.

Gemini Robotics, d'autre part, est conçu pour la vitesse et l'efficacité. Il utilise un système hybride composé d'une dorsale basée sur le cloud et d'un décodeur d'action embarqué. La dorsale basée sur le cloud traite rapidement les informations, avec une latence requête-réponse inférieure à 160 millisecondes. 

Ensuite, le décodeur embarqué aide à traduire ces données en actions en temps réel. Ce système combiné atteint un temps de réponse global d'environ 250 millisecondes, avec une vitesse de contrôle de 50 actions par seconde.

__wf_reserved_inherit
Fig. 3. Comprendre comment Gemini Robotics prend en charge le contrôle robotique en temps réel.

Principales capacités de Gemini Robotics 

Voici un aperçu rapide des principales caractéristiques de Gemini Robotics :

  • Généralité : Il peut s'adapter aux changements d'éclairage, d'arrière-plan et d'objets tout en restant précis. Il comprend également les commandes paraphrasées ou multilingues et peut ajuster les mouvements en fonction des différentes conditions.

  • Interactivité : Ce modèle peut traiter un large éventail de commandes en langage naturel et répondre de manière intuitive. Il ajuste également ses actions en fonction des changements en temps réel de l'environnement, ce qui le rend idéal pour la collaboration homme-robot.

  • Dextérité : Un robot alimenté par ce modèle peut effectuer des tâches complexes et précises, telles que le pliage d'origami ou la manipulation d'objets délicats. Qu'il s'agisse d'un processus étape par étape ou d'actions rapides, le modèle peut aider à les exécuter efficacement.
  • Plusieurs incarnations : Il fonctionne sur diverses plateformes robotiques, comme les systèmes à deux bras et les robots humanoïdes, avec peu de réglages fins. Il s’adapte rapidement aux nouvelles tâches tout en maintenant des performances élevées.
__wf_reserved_inherit
Fig. 4. Google Gemini Robotics fonctionne sur diverses plateformes robotiques.

Principales capacités de Gemini Robotics - ER

Voici un aperçu de certaines des principales caractéristiques de Gemini Robotics-ER qui aident les robots à comprendre et à interagir avec le monde :

  • Détection d'objets et suivi : Elle peut être utilisée pour identifier et suivre des objets dans des espaces 2D et 3D. En utilisant des requêtes en langage naturel, elle aide les robots à trouver des objets et à prédire leurs positions, que ce soit en fonction du type, de l'emplacement ou de la fonction.

  • Pointage : Cette fonctionnalité permet au modèle de localiser des objets ou des parties spécifiques dans une image en utilisant des coordonnées précises. Elle peut être utilisée pour aider les robots à localiser des objets entiers, des parties d'objets ou même des espaces vides.
  • Prédiction de la préhension : Gemini Robotics-ER peut être utilisé pour déterminer la meilleure façon de saisir des objets en fonction de leur forme et de leur fonction. Il prédit où saisir, qu'il s'agisse d'une banane ou d'une anse de tasse, permettant aux robots de manipuler les objets avec soin.

  • Raisonnement sur la trajectoire : Le modèle peut être utilisé pour planifier des trajectoires de mouvement en prédisant des séquences d'actions. Par exemple, il peut guider une main de robot vers un outil ou définir des points de passage pour une tâche spécifique, aidant ainsi le robot à accomplir des tâches efficacement.

  • Correspondance multi-vues : Cette fonctionnalité aide le modèle à comprendre les structures 3D en comparant l’apparence des objets sous différents angles. Elle peut être utilisée pour améliorer le raisonnement spatial, permettant aux robots de mieux interagir avec les objets dans des environnements dynamiques.
__wf_reserved_inherit
Fig 5. Gemini Robotics-ER peut gérer diverses tâches.

Applications des modèles de robotique Google Gemini

Maintenant que nous avons discuté des principales capacités de Gemini Robotics et Gemini Robotics-ER, examinons leurs applications concrètes dans divers secteurs.

La robotique Google Gemini peut être utilisée dans la fabrication

En matière de fabrication, la précision et la vitesse sont importantes, mais c'est l'adaptabilité qui fait vraiment fonctionner les choses en douceur. Par exemple, un robot industriel alimenté par Gemini peut assembler un système de poulie en identifiant les bons composants, en les positionnant correctement et en manipulant une bande de caoutchouc flexible avec une force précise. 

Il peut étirer la bande, la faire passer autour des poulies et la fixer sans rupture ni désalignement. Si la configuration change ou si la tâche varie, le robot peut s'adapter sans nécessiter une reprogrammation importante. Cette automatisation intelligente réduit les erreurs, améliore l'efficacité et assure le bon déroulement des processus de fabrication.

__wf_reserved_inherit
Fig 6. Un robot industriel à deux bras place avec précision un élastique sur un système de poulie.

Maisons intelligentes optimisées par Gemini Robotics

Les horaires chargés peuvent rendre difficile le suivi des tâches ménagères. Les robots intelligents peuvent intervenir pour gérer des tâches telles que le nettoyage, le tri des courses et même l'aide à la préparation des repas, ce qui facilite la vie quotidienne

Cela pourrait ressembler à un robot préparant une boîte à lunch, sélectionnant et plaçant soigneusement des aliments à l'intérieur tout en ajustant sa prise pour protéger les articles fragiles comme les fruits ou les conserves. Même si la disposition change, le robot peut s'adapter de lui-même, facilitant ainsi les tâches quotidiennes avec un minimum de supervision.

__wf_reserved_inherit
Fig 7. Un robot humanoïde emballant soigneusement un sac à lunch.

Avantages et inconvénients de l'exploitation de Gemini Robotics 

Gemini Robotics élargit le champ des possibles pour les robots, de la fabrication de précision à l'assistance domestique intelligente. Voici quelques avantages clés de l'utilisation de Gemini Robotics dans diverses applications : 

  • Besoins de formation minimaux : Contrairement aux robots traditionnels, les robots pilotés par Gemini Robotics peuvent apprendre à partir de quelques démonstrations, ce qui réduit les coûts de formation et les rend plus faciles à déployer.

  • Sécurité renforcée : Dans les environnements dangereux, les robots intégrés à Gemini Robotics peuvent effectuer des tâches dangereuses, réduisant ainsi le risque de blessure pour les travailleurs humains.
  • Fonctionnalités personnalisables : La flexibilité de Gemini Robotics signifie qu'il peut être adapté pour répondre aux besoins spécifiques de différentes industries ou entreprises individuelles, permettant des applications spécialisées et des solutions uniques.

Bien que Gemini Robotics offre plusieurs avantages, il est également important de tenir compte des limitations suivantes :

  • Difficultés liées aux relations spatiales : Ces modèles peuvent avoir du mal à suivre les relations spatiales sur de longues séquences vidéo, ce qui affecte leur capacité à suivre et à comprendre les objets au fil du temps.
  • Manque de précision numérique : Les prédictions du modèle, comme les points et les boîtes englobantes, peuvent ne pas être suffisamment précises pour les tâches qui nécessitent un contrôle précis, comme les tâches robotiques délicates.
  • Tâches complexes : Gemini Robotics peut avoir des difficultés à gérer des tâches complexes qui nécessitent un raisonnement en plusieurs étapes et des mouvements précis, en particulier dans des situations nouvelles ou inconnues. 

L'avenir de l'IA dans la robotique

À mesure que l'IA continue de progresser, des modèles tels que Gemini Robotics et Gemini Robotics-ER pilotent l'avenir de la robotique. Les améliorations futures se concentreront probablement sur l'amélioration du raisonnement multi-étapes, permettant aux robots de décomposer les tâches en étapes logiques pour une plus grande précision.

Un autre domaine de développement clé sur lequel Google DeepMind prévoit de travailler est la formation basée sur la simulation. En apprenant dans des environnements virtuels avant le déploiement dans le monde réel, les robots peuvent affiner leur prise de décision et leurs mouvements, minimisant ainsi les erreurs dans les applications pratiques.

À mesure que ces technologies évoluent, elles pourraient ouvrir la voie à un avenir où les robots seraient plus autonomes, adaptables et capables de travailler de manière transparente aux côtés des humains dans la vie de tous les jours.

Principaux points à retenir

Gemini Robotics est un grand pas en avant dans l'automatisation basée sur l'IA, reliant l'intelligence numérique aux tâches physiques du monde réel. En combinant la vision, le langage et l'apprentissage basé sur l'action, ces robots peuvent gérer des tâches complexes avec précision et adaptabilité. 

À mesure que les robots deviennent plus intelligents, ils joueront probablement un rôle plus important dans la vie quotidienne, changeant la façon dont les humains et les machines travaillent ensemble. Ces progrès nous rapprochent d'un monde intelligent et plus connecté où l'automatisation basée sur l'IA améliore à la fois les industries et les tâches quotidiennes.

Rejoignez notre communauté en pleine croissance ! Visitez notre dépôt GitHub pour approfondir vos connaissances en matière d'IA. Vous cherchez à démarrer vos propres projets de vision par ordinateur ? Jetez un coup d'œil à nos options de licence. Apprenez-en davantage sur l'IA dans la fabrication et la Vision IA dans l'industrie automobile sur nos pages de solutions !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers