Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024

Faites vos premiers pas avec Google Gemini 2.5 pour les tâches de vision par ordinateur

Abirami Vina

5 min de lecture

31 mars 2025

Découvrez comment vous pouvez vous familiariser avec Google Gemini 2.5 pour les tâches de vision par ordinateur telles que la détection d'objets, la légende d'images et l'OCR pour les solutions d'IA de vision.

Les avancées de l'IA évoluent rapidement, avec de nouvelles innovations qui font les gros titres presque chaque jour. L'une de ces récentes percées est Gemini 2.5, le dernier modèle multimodal de Google DeepMind, lancé le 26 mars. Alors que les grands modèles linguistiques (LLM) traditionnels peuvent apprendre à partir de grandes quantités de données pour générer du texte de type humain, Gemini 2.5 va au-delà. 

Il est conçu comme un « modèle de pensée » capable de traiter des images, de l'audio et de la vidéo. Il possède des compétences améliorées en matière de raisonnement et de codage. Il est intéressant de noter qu'il fonctionne également exceptionnellement bien en ce qui concerne les tâches de vision par ordinateur, où les machines interprètent et analysent les données visuelles, telles que la détection d'objets, la légende d'images et la reconnaissance optique de caractères (OCR).

__wf_reserved_inherit
Fig. 1. Un exemple d'utilisation de Gemini 2.5 pour comprendre le contenu d'une image.

Dans cet article, nous allons passer en revue l'un des notebooks d'Ultralytics qui peut vous aider à vous familiariser avec les capacités de vision par ordinateur de Gemini 2.5. Nous examinerons également de plus près les principales caractéristiques de Gemini 2.5 et montrerons comment il peut être utilisé pour créer des solutions de vision par ordinateur pour des applications concrètes. Commençons !

Aperçu de Gemini 2.5 : fonctionnalités et capacités

La première version de la série de modèles Gemini 2.5 qui vient d'être publiée est une version expérimentale de Gemini 2.5 Pro. Elle est conçue pour traiter des problèmes complexes en analysant ses réponses avant de les donner. Elle utilise des méthodes telles que l'apprentissage par renforcement (où le modèle apprend à partir du feedback) et l'invite de chaînes de pensée (une approche étape par étape de la résolution de problèmes).

L'une de ses principales caractéristiques est son immense fenêtre contextuelle, qui peut contenir 1 million de jetons (environ un million de mots ou de parties de mots) et qui devrait atteindre 2 millions. Cela signifie que le modèle peut assimiler beaucoup d'informations à la fois, ce qui conduit à des résultats plus détaillés et plus précis.

En plus du traitement du langage, Gemini 2.5 peut être utilisé pour les tâches de vision par ordinateur suivantes :

  • Détection d'objets : Il s'agit du processus d'identification et de localisation d'objets dans une image. Elle peut être utilisée dans des applications telles que la surveillance ou les voitures autonomes.
  • Légendes d'images : Cette tâche consiste à générer un texte descriptif pour une image. Elle rend le contenu visuel plus accessible et plus facile à comprendre.
  • Reconnaissance optique de caractères : Cette technologie convertit le texte trouvé dans les images en texte modifiable et lisible par machine. Elle est utile pour numériser des documents et automatiser la saisie de données.

Benchmarking et comparaison de Google Gemini 2.5 avec d'autres modèles

Il existe plusieurs modèles multimodaux disponibles dans l'espace de l'IA aujourd'hui, il est donc important de comprendre comment Gemini 2.5 Pro se compare à eux. Sur la base des résultats d'analyse comparative partagés par DeepMind de Google, Gemini 2.5 Pro affiche des performances impressionnantes dans un éventail de tâches. 

Par exemple, lors d'un test appelé Humanity’s Last Exam, qui simule un examen difficile couvrant de nombreux sujets et testant le raisonnement avancé et les connaissances générales, Gemini 2.5 Pro obtient un score d'environ 18,8 %, surpassant des modèles tels que o3-mini d'OpenAI, qui obtient un score d'environ 14 %. 

__wf_reserved_inherit
Fig 2. Un aperçu des performances de référence de Gemini 2.5 Pro.

Il est également très performant dans les défis mathématiques et de codage, égalant ou dépassant souvent les performances de modèles tels que OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta et DeepSeek R1, démontrant ainsi sa capacité à gérer des tâches complexes et à traiter de grandes quantités de données.

Prise en main de Gemini 2.5 : comment utiliser l'API Google Gemini

Gemini 2.5 Pro est disponible sur plusieurs plateformes. Vous pouvez l'expérimenter dans Google AI Studio et y accéder via l'application Gemini pour les utilisateurs de Gemini Advanced. Dans son annonce de lancement, Google DeepMind a également mentionné que le modèle sera bientôt pris en charge sur Vertex AI. Ces points d'accès permettent aux développeurs d'utiliser facilement Gemini 2.5 Pro pour des applications d'IA réelles. 

Cependant, si vous souhaitez utiliser l'API Google Gemini et démarrer en quelques minutes sans configuration compliquée, et que vous cherchez à mieux comprendre ses capacités de vision par ordinateur, vous pouvez consulter le notebook Ultralytics qui présente des tâches telles que la détection d'objets et la légende d'images à l'aide de Gemini 2.5 Pro. Examinons en détail ce que vous pouvez attendre du notebook.

Configuration de l'inférence avec le notebook Google Gemini 2.5

Pour commencer avec le notebook Ultralytics et utiliser Google Gemini 2.5, vous devez d'abord générer une clé API via Google AI Studio. Cette clé vous donne accès à l'API Gemini afin que vous puissiez utiliser le modèle.

Une fois que vous avez votre clé API, assurez-vous que votre environnement possède les bibliothèques nécessaires installées - celles-ci comprennent des paquets d'Ultralytics et de la boîte à outils d'IA de Google. Cette étape est clairement décrite dans le notebook, vous pouvez donc facilement suivre les instructions pour configurer votre espace de travail.

Une fois que tout est configuré, vous pouvez vous connecter à l'API Gemini en saisissant votre clé d'API (comme indiqué ci-dessous), ce qui crée un lien entre votre espace de travail et le modèle. Après cela, vous serez prêt à envoyer des images et des invites de texte à Gemini 2.5.

En substance, vous pouvez fournir une image et une instruction simple (comme “détecter les objets dans cette image” ou “décrire ce que vous voyez”) au modèle, et il renvoie les résultats dont vous avez besoin. Ce processus simple facilite l'exploration des capacités de vision par ordinateur de Gemini 2.5.

Détection d'objets avec Google Gemini 2.5

L'un des principaux exemples du notebook est la détection d'objets à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une simple invite pour détecter les objets. 

Le modèle traite l'image et renvoie un ensemble de coordonnées et d'étiquettes pour chaque objet qu'il trouve ; ces coordonnées sont données sous forme normalisée. Les fonctions du paquet Python Ultralytics sont ensuite utilisées pour convertir ces valeurs normalisées afin qu'elles correspondent aux dimensions réelles de l'image et pour dessiner des boîtes englobantes claires autour de chaque objet, comme illustré ci-dessous.

__wf_reserved_inherit
Fig 3. Utilisation de Google Gemini 2.5 pour la détection d'objets.

Légende d'images à l'aide de Gemini 2.5

Un autre exemple intéressant dans le notebook est la légende d'image à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une invite lui demandant de générer une légende détaillée qui décrit ce qu'il y a dans l'image. 

Le modèle analyse ensuite le contenu visuel et renvoie un récit, souvent formaté en plusieurs phrases, qui capture à la fois le contenu et le contexte de l'image. Cette fonctionnalité est utile pour améliorer l'accessibilité, résumer les informations visuelles et même améliorer la narration créative.

Améliorer la précision de la reconnaissance optique de caractères (OCR) avec les modèles Google Gemini

Une tâche de vision par ordinateur qui utilise la capacité de Gemini 2.5 Pro à lire du texte dans des images est la ROC (reconnaissance optique de caractères). Dans le notebook, vous pouvez fournir au modèle une image contenant du texte ainsi qu'une invite pour extraire ce texte. Le modèle traite l'image et renvoie à la fois le texte détecté et les coordonnées où se trouve le texte, comme indiqué ci-dessous.

Les fonctions du package Python Ultralytics sont ensuite utilisées pour convertir ces coordonnées normalisées en dimensions réelles de l'image et dessiner des boîtes englobantes autour des régions de texte. Cette sortie annotée indique clairement où se trouve le texte, ce qui est utile pour numériser des documents, automatiser la saisie de données et améliorer l'accessibilité.

__wf_reserved_inherit
Fig 4. Extraction de données textuelles dans une image à l'aide de Google Gemini 2.5.

Applications concrètes de Google Gemini 2.5

Maintenant que nous avons vu comment Google Gemini 2.5 Pro peut être utilisé pour diverses tâches de vision par ordinateur, explorons quelques applications concrètes où ces capacités peuvent être utilisées.

La capacité de détection d'objets de Gemini 2.5 Pro, par exemple, peut aider à étiqueter et à organiser automatiquement de grands ensembles d'images, ce qui accélère considérablement les tâches telles que la création de jeux de données ou la gestion de contenu. Il peut également être utilisé pour analyser des images dans des domaines tels que le commerce de détail et l'agriculture - par exemple, pour détecter des produits sur les étagères ou identifier des signes de stress des cultures sur des photos de ferme.

__wf_reserved_inherit
Fig 5. Gemini 2.5 Pro analysant la santé d'une plante.

Parallèlement, la fonctionnalité de légende d'image du modèle peut aider les utilisateurs malvoyants à comprendre ce qu'il y a dans une image. Par exemple, si vous avez une photo d'une rue animée, le modèle peut produire une légende qui décrit la scène en détail, mentionnant les types de véhicules, l'activité des piétons et même l'heure de la journée en fonction des indices d'éclairage. 

De plus, la fonctionnalité OCR de Gemini 2.5 peut être utilisée dans diverses applications. Par exemple, vous pouvez numériser des documents imprimés en scannant des pages ou des reçus. Cette capacité est idéale pour automatiser les tâches de saisie de données, traiter les formulaires ou même lire du texte à partir de cartes de visite et de panneaux de signalisation. 

Globalement, Google Gemini 2.5 Pro ouvre les portes à un large éventail d'applications pratiques de l'IA.

Principaux points à retenir

Au-delà de la génération et de l'analyse de texte, Google Gemini 2.5 Pro peut être utilisé pour des tâches de vision par ordinateur telles que la détection d'objets, la légende d'images et la reconnaissance optique de caractères (OCR). Grâce à son immense fenêtre de contexte et à ses capacités de raisonnement améliorées, il produit des résultats détaillés et tenant compte du contexte, qui fonctionnent bien dans des scénarios réels. 

À mesure que les modèles d'IA continuent d'évoluer, des outils comme Gemini 2.5 Pro facilitent la résolution de problèmes complexes dans tous les secteurs. Il est probable que nous assisterons à une adoption encore plus large de l'IA, car de plus en plus d'organisations recherchent des solutions multimodales flexibles capables de gérer un large éventail de tâches, de la compréhension visuelle au traitement du langage.

Rejoignez notre communauté et découvrez des projets d'IA de pointe sur notre dépôt GitHub. Découvrez les applications de la Vision IA dans l'agriculture et le rôle de l'IA dans la fabrication sur nos pages de solutions. Explorez nos plans de licence et créez des solutions de vision par ordinateur dès aujourd'hui !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers