IA de vision

Prends en main Google Gemini 2.5 pour des tâches de vision par ordinateur

Découvre comment tu peux prendre en main Google Gemini 2.5 pour des tâches de vision par ordinateur telles que la détection d'objets, la légende d'image et l'OCR pour des solutions de vision par IA.

ABAbirami Vina

5 min readMarch 31, 2025

Utiliser Google Gemini 2.5 pour des tâches de vision par ordinateur

Les avancées en IA progressent rapidement, avec de nouvelles innovations qui font la une presque chaque jour. L'une de ces récentes percées est Gemini 2.5, le dernier modèle multimodal de Google DeepMind, lancé le 26 mars. Alors que les Large Language Models (LLMs) traditionnels peuvent apprendre à partir de quantités massives de données pour générer du texte semblable à celui d'un humain, Gemini 2.5 va encore plus loin.

Il est conçu comme un « modèle de réflexion » capable de traiter des images, de l'audio et de la vidéo. Il possède des compétences améliorées en raisonnement et en codage. Il est intéressant de noter qu'il est également extrêmement performant dans les tâches de vision par ordinateur, où les machines interprètent et analysent des données visuelles, comme la détection d'objets, la légende d'images et la reconnaissance optique de caractères (OCR).

Utiliser Gemini 2.5 pour comprendre le contenu d'une image

Fig 1. Un exemple d'utilisation de Gemini 2.5 pour comprendre le contenu d'une image.

Dans cet article, nous explorerons l'un des notebooks d'Ultralytics qui t'aidera à prendre en main les capacités de vision par ordinateur de Gemini 2.5. Nous examinerons également de plus près les fonctionnalités clés de Gemini 2.5 et montrerons comment il peut être utilisé pour créer des solutions de vision par ordinateur pour des applications réelles. Commençons !

Link to this sectionVue d'ensemble de Gemini 2.5 : fonctionnalités et capacités#

La première version de la série de modèles Gemini 2.5 qui vient de sortir est une version expérimentale de Gemini 2.5 Pro. Il est conçu pour gérer des problèmes complexes en réfléchissant à ses réponses avant de donner une solution. Il utilise des méthodes comme l'apprentissage par renforcement (où le modèle apprend à partir de retours) et le « chain-of-thought prompting » (une approche étape par étape pour résoudre les problèmes).

L'une de ses fonctionnalités clés est sa fenêtre de contexte immense, qui peut contenir 1 million de jetons (environ un million de mots ou parties de mots) et qui devrait passer à 2 millions. Cela signifie que le modèle peut assimiler beaucoup d'informations à la fois, ce qui conduit à des résultats plus détaillés et précis.

En plus du traitement du langage, Gemini 2.5 peut être utilisé pour les tâches de vision par ordinateur suivantes :

Détection d'objets : c'est le processus d'identification et de localisation d'objets au sein d'une image. Il peut être utilisé dans des applications telles que la surveillance ou les voitures autonomes.
Légende d'image : cette tâche implique la génération d'un texte descriptif pour une image. Cela rend le contenu visuel plus accessible et plus facile à comprendre.
Reconnaissance optique de caractères : cette technologie convertit le texte trouvé dans les images en texte modifiable et lisible par une machine. Elle est utile pour numériser des documents et automatiser la saisie de données.

Link to this sectionÉvaluer et comparer Google Gemini 2.5 avec d'autres modèles#

Il existe plusieurs modèles multimodaux disponibles dans l'espace de l'IA aujourd'hui, il est donc important de comprendre comment Gemini 2.5 Pro se compare à eux. Sur la base des résultats d'évaluation partagés par Google DeepMind, Gemini 2.5 Pro affiche des performances impressionnantes sur une gamme de tâches.

Par exemple, lors d'un test appelé Humanity’s Last Exam, qui simule un examen difficile couvrant de nombreux sujets et testant le raisonnement avancé et les connaissances générales, Gemini 2.5 Pro obtient environ 18,8 %, surpassant des modèles comme le o3-mini d'OpenAI, qui obtient environ 14 %.

Un aperçu des performances de référence de Gemini 2.5 Pro

Fig 2. Une vue d'ensemble des performances de référence de Gemini 2.5 Pro.

Il est également très performant sur les défis de mathématiques et de codage, égalant ou dépassant souvent les performances de modèles comme OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta et DeepSeek R1, démontrant sa capacité à gérer des tâches complexes et à traiter de grandes quantités de données.

Link to this sectionPrendre en main Gemini 2.5 : comment utiliser la Google Gemini API#

Gemini 2.5 Pro est disponible sur plusieurs plateformes. Tu peux expérimenter avec lui dans Google AI Studio et y accéder via l'application Gemini pour les utilisateurs de Gemini Advanced. Dans son annonce de lancement, Google DeepMind a également mentionné que le modèle serait bientôt pris en charge sur Vertex AI. Ces points d'accès facilitent la tâche des développeurs pour utiliser Gemini 2.5 Pro pour des applications d'IA réelles.

Cependant, si tu souhaites utiliser la Google Gemini API et commencer en seulement quelques minutes sans configuration compliquée et que tu cherches à mieux comprendre ses capacités de vision par ordinateur, tu peux consulter le notebook Ultralytics qui présente des tâches comme la détection d'objets et la légende d'image en utilisant Gemini 2.5 Pro. Passons en revue ce à quoi tu peux t'attendre dans le notebook en détail.

Link to this sectionConfigurer l'inférence avec le notebook Google Gemini 2.5#

Pour commencer avec le notebook Ultralytics et utiliser Google Gemini 2.5, tu devras d'abord générer une clé API via Google AI Studio. Cette clé te donne accès à la Gemini API afin que tu puisses utiliser le modèle.

Une fois que tu as ta clé API, assure-toi que ton environnement dispose des bibliothèques nécessaires installées - cela inclut les packages d'Ultralytics et la boîte à outils IA de Google. Cette étape est clairement décrite dans le notebook, afin que tu puisses facilement suivre les instructions pour configurer ton espace de travail.

Une fois tout configuré, tu peux te connecter à la Gemini API en entrant ta clé API (comme indiqué ci-dessous), ce qui crée un lien entre ton espace de travail et le modèle. Après cela, tu seras prêt à envoyer des images et des invites textuelles à Gemini 2.5.

Essentiellement, tu peux fournir une image et une instruction simple (comme « détecte les objets dans cette image » ou « décris ce que tu vois ») au modèle, et il renvoie les résultats dont tu as besoin. Ce processus simple facilite le démarrage de l'exploration des capacités de vision par ordinateur de Gemini 2.5.

Link to this sectionDétection d'objets avec Google Gemini 2.5#

L'un des exemples clés dans le notebook est la détection d'objets utilisant Gemini 2.5 Pro. Dans cet exemple, tu fournis au modèle une image et une invite simple pour détecter des objets.

Le modèle traite l'image et renvoie un ensemble de coordonnées et d'étiquettes pour chaque objet qu'il trouve ; ces coordonnées sont données sous forme normalisée. Les fonctions du package Python Ultralytics sont ensuite utilisées pour convertir ces valeurs normalisées afin de correspondre aux dimensions réelles de l'image et dessiner des boîtes englobantes claires autour de chaque objet, comme indiqué ci-dessous.

Utiliser Google Gemini 2.5 pour la détection d'objets

Fig 3. Utiliser Google Gemini 2.5 pour la détection d'objets.

Link to this sectionLégende d'image utilisant Gemini 2.5#

Un autre exemple intéressant dans le notebook est la légende d'image utilisant Gemini 2.5 Pro. Dans cet exemple, tu fournis au modèle une image et une invite lui demandant de générer une légende détaillée qui décrit ce qui se trouve dans l'image.

Le modèle analyse ensuite le contenu visuel et renvoie un récit, souvent formaté en plusieurs phrases, qui capture à la fois le contenu et le contexte de l'image. Cette fonctionnalité est utile pour améliorer l'accessibilité, résumer des informations visuelles et même améliorer la narration créative.

Link to this sectionAméliorer la précision de l'OCR avec les modèles Google Gemini#

Une tâche de vision par ordinateur qui utilise la capacité de Gemini 2.5 Pro à lire le texte dans les images est l'OCR. Dans le notebook, tu peux fournir au modèle une image contenant du texte ainsi qu'une invite pour extraire ce texte. Le modèle traite l'image et renvoie à la fois le texte détecté et les coordonnées où se trouve le texte, comme indiqué ci-dessous.

Les fonctions du package Python Ultralytics sont ensuite utilisées pour convertir ces coordonnées normalisées en dimensions réelles de l'image et dessiner des boîtes englobantes autour des zones de texte. Ce résultat annoté montre clairement où se trouve le texte, ce qui est utile pour numériser des documents, automatiser la saisie de données et améliorer l'accessibilité.

Extraire des données textuelles dans une image en utilisant Google Gemini 2.5

Fig 4. Extraire des données textuelles dans une image en utilisant Google Gemini 2.5.

Link to this sectionApplications réelles de Google Gemini 2.5#

Maintenant que nous avons parcouru comment Google Gemini 2.5 Pro peut être utilisé pour diverses tâches de vision par ordinateur, explorons quelques applications réelles où ces capacités peuvent être utilisées.

La capacité de détection d'objets de Gemini 2.5 Pro, par exemple, peut aider à étiqueter et organiser automatiquement de grands ensembles d'images, rendant des tâches comme la création de dataset ou la gestion de contenu beaucoup plus rapides. Elle peut également être utilisée pour analyser des images dans des domaines comme la vente au détail et l'agriculture - par exemple, détecter des produits sur les étagères ou identifier des signes de stress des cultures sur des photos de fermes.

Gemini 2.5 Pro analysant la santé d'une plante

Fig 5. Gemini 2.5 Pro analysant la santé d'une plante.

Pendant ce temps, la fonctionnalité de légende d'image du modèle peut aider les utilisateurs malvoyants à comprendre ce qui se trouve dans une image. Par exemple, si tu as une photo d'une rue animée, le modèle pourrait produire une légende qui décrit la scène en détail, mentionnant les types de véhicules, l'activité des piétons et même l'heure de la journée en fonction des indices d'éclairage.

En plus de cela, la fonctionnalité OCR de Gemini 2.5 peut être utilisée dans une variété d'applications. Par exemple, tu peux numériser des documents imprimés en scannant des pages ou des reçus. Cette capacité est idéale pour automatiser les tâches de saisie de données, traiter des formulaires ou même lire du texte à partir de cartes de visite et de signalétique.

Dans l'ensemble, Google Gemini 2.5 Pro ouvre la porte à un large éventail d'applications pratiques de l'IA.

Link to this sectionPoints clés#

Allant au-delà de la génération et de l'analyse de texte, Google Gemini 2.5 Pro peut être utilisé pour des tâches de vision par ordinateur comme la détection d'objets, la légende d'image et l'OCR. Avec sa fenêtre de contexte massive et ses capacités de raisonnement améliorées, il produit des résultats détaillés et conscients du contexte qui fonctionnent bien dans des scénarios réels.

À mesure que les modèles d'IA continuent d'évoluer, des outils comme Gemini 2.5 Pro facilitent la résolution de problèmes complexes à travers les industries. Il est probable que nous verrons une adoption encore plus large de l'IA à mesure que davantage d'organisations recherchent des solutions flexibles et multimodales capables de gérer un large éventail de tâches, de la compréhension visuelle au traitement du langage.

Rejoins notre communauté et apprends sur les projets d'IA de pointe sur notre dépôt GitHub. Découvre les applications de Vision AI en agriculture et le rôle de l'IA dans la fabrication sur nos pages de solutions. Explore nos plans de licence et crée des solutions de vision par ordinateur dès aujourd'hui !

Explore solutions

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

Prends en main Google Gemini 2.5 pour des tâches de vision par ordinateur

Link to this sectionVue d'ensemble de Gemini 2.5 : fonctionnalités et capacités#

Link to this sectionÉvaluer et comparer Google Gemini 2.5 avec d'autres modèles#

Link to this sectionPrendre en main Gemini 2.5 : comment utiliser la Google Gemini API#

Link to this sectionConfigurer l'inférence avec le notebook Google Gemini 2.5#

Link to this sectionDétection d'objets avec Google Gemini 2.5#

Link to this sectionLégende d'image utilisant Gemini 2.5#

Link to this sectionAméliorer la précision de l'OCR avec les modèles Google Gemini#

Link to this sectionApplications réelles de Google Gemini 2.5#

Link to this sectionPoints clés#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !