En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez comment vous pouvez utiliser Google Gemini 2.5 pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et l'OCR pour les solutions Vision AI.
Les progrès de l'IA sont rapides et de nouvelles innovations font la une des journaux presque tous les jours. Gemini 2.5, le dernier modèle multimodal de Google DeepMind, lancé le 26 mars, est l'une de ces avancées récentes. Alors que les grands modèles de langage (LLM) traditionnels peuvent apprendre à partir de quantités massives de données pour générer des textes semblables à ceux des humains, Gemini 2.5 va plus loin.
Il est conçu comme un "modèle de pensée" capable de traiter des images, du son et de la vidéo. Il possède des capacités de raisonnement et de codage améliorées. Il est intéressant de noter qu'il obtient également d'excellents résultats dans les tâches de vision artificielle, où les machines interprètent et analysent des données visuelles, telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères (OCR).
Fig. 1. Exemple d'utilisation de Gemini 2.5 pour comprendre le contenu d'une image.
Dans cet article, nous allons parcourir l'un des carnets d'Ultralytics qui peut vous aider à vous familiariser avec les capacités de vision par ordinateur de Gemini 2.5. Nous examinerons également de plus près les principales caractéristiques de Gemini 2.5 et montrerons comment il peut être utilisé pour créer des solutions de vision par ordinateur pour des applications réelles. C'est parti !
Vue d'ensemble de Gemini 2.5 : caractéristiques et capacités
La première version de la série de modèles Gemini 2.5 qui vient d'être publiée est une version expérimentale de Gemini 2.5 Pro. Elle est conçue pour traiter des problèmes complexes en réfléchissant à ses réponses avant de donner une réponse. Il utilise des méthodes telles que l'apprentissage par renforcement (où le modèle apprend grâce au retour d'information) et l'incitation à la réflexion en chaîne (une approche étape par étape pour résoudre les problèmes).
L'une de ses principales caractéristiques est son immense fenêtre contextuelle, qui peut contenir 1 million de tokens (environ un million de mots ou de parties de mots) et devrait passer à 2 millions. Cela signifie que le modèle peut prendre en compte un grand nombre d'informations à la fois, ce qui permet d'obtenir des résultats plus détaillés et plus précis.
Outre le traitement du langage, Gemini 2.5 peut être utilisé pour les tâches de vision par ordinateur suivantes :
Détection d'objets: Il s'agit du processus d'identification et de localisation d'objets dans une image. Elle peut être utilisée dans des applications telles que la surveillance ou les voitures autonomes.
Légende d'image: Cette tâche consiste à générer un texte descriptif pour une image. Elle rend le contenu visuel plus accessible et plus facile à comprendre.
Reconnaissance optique des caractères: Cette technologie convertit le texte présent dans les images en texte éditable et lisible par la machine. Elle est utile pour numériser des documents et automatiser la saisie de données.
Analyse comparative et comparaison de Google Gemini 2.5 avec d'autres modèles
Il existe aujourd'hui plusieurs modèles multimodaux dans le domaine de l'IA, il est donc important de comprendre comment Gemini 2.5 Pro se situe par rapport à eux. D'après les résultats d'analyse comparative partagés par DeepMind de Google, Gemini 2.5 Pro affiche des performances impressionnantes dans toute une série de tâches.
Par exemple, sur un test appelé Humanity's Last Exam, qui simule un examen difficile couvrant de nombreux sujets et testant le raisonnement avancé et les connaissances générales, Gemini 2.5 Pro obtient un score d'environ 18,8 %, surpassant des modèles tels que o3-mini d'OpenAI, qui obtient un score d'environ 14 %.
Fig. 2. Vue d'ensemble des performances de Gemini 2.5 Pro.
Il obtient également de très bons résultats dans les défis mathématiques et de codage, égalant ou dépassant souvent les performances de modèles tels que OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta et DeepSeek R1, démontrant ainsi sa capacité à gérer des tâches complexes et à traiter de grandes quantités de données.
Mise en pratique de Gemini 2.5 : Comment utiliser l'API Google Gemini
Gemini 2.5 Pro est disponible sur plusieurs plateformes. Vous pouvez l'expérimenter dans Google AI Studio et y accéder via l'application Gemini pour les utilisateurs de Gemini Advanced. Dans son annonce de lancement, Google DeepMind a également mentionné que le modèle sera bientôt pris en charge par Vertex AI. Ces points d'accès permettent aux développeurs d'utiliser facilement Gemini 2.5 Pro pour des applications d'IA réelles.
Cependant, si vous souhaitez utiliser l'API Google Gemini et démarrer en quelques minutes sans configuration compliquée, et si vous cherchez à mieux comprendre ses capacités de vision par ordinateur, vous pouvez consulter le carnet Ultralytics qui présente des tâches telles que la détection d'objets et le sous-titrage d'images à l'aide de Gemini 2.5 Pro. Voyons en détail ce que vous pouvez attendre du notebook.
Configuration de l'inferencing avec l'ordinateur portable Google Gemini 2.5
Pour commencer à utiliser le carnet Ultralytics et Google Gemini 2.5, vous devez d'abord générer une clé API via Google AI Studio. Cette clé vous donne accès à l'API Gemini afin que vous puissiez utiliser le modèle.
Une fois que vous avez obtenu votre clé API, assurez-vous que votre environnement dispose des bibliothèques nécessaires, notamment des paquets d'Ultralytics et de la boîte à outils AI de Google. Cette étape est clairement décrite dans le carnet de notes, de sorte que vous pouvez facilement suivre les instructions pour configurer votre espace de travail.
Une fois tout configuré, vous pouvez vous connecter à l'API Gemini en saisissant votre clé API (comme indiqué ci-dessous), ce qui crée un lien entre votre espace de travail et le modèle. Après cela, vous serez prêt à envoyer des images et des invites textuelles à Gemini 2.5.
Pour l'essentiel, vous pouvez fournir une image et une instruction simple (comme "détecter des objets dans cette image" ou "décrire ce que vous voyez") au modèle, qui vous renverra les résultats dont vous avez besoin. Ce processus simple facilite l'exploration des capacités de vision par ordinateur de Gemini 2.5.
Détection d'objets avec Google Gemini 2.5
L'un des exemples clés du carnet est la détection d'objets à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une simple invite à détecter des objets.
Le modèle traite l'image et renvoie un ensemble de coordonnées et d'étiquettes pour chaque objet trouvé ; ces coordonnées sont données sous forme normalisée. Les fonctions du logiciel Ultralytics Python sont ensuite utilisées pour convertir ces valeurs normalisées afin qu'elles correspondent aux dimensions réelles de l'image et pour dessiner des boîtes de délimitation claires autour de chaque objet, comme le montre l'illustration ci-dessous.
Fig. 3. Utilisation de Google Gemini 2.5 pour la détection d'objets.
Légende des images avec Gemini 2.5
Un autre exemple intéressant dans le carnet est le légendage d'images à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une invite lui demandant de générer une légende détaillée décrivant ce qui se trouve dans l'image.
Le modèle analyse ensuite le contenu visuel et renvoie une narration, souvent formatée sous forme de phrases multiples, qui capture à la fois le contenu et le contexte de l'image. Cette fonction est utile pour améliorer l'accessibilité, résumer les informations visuelles et même améliorer la narration créative.
Améliorer la précision de l'OCR avec les modèles Google Gemini
L'OCR est une tâche de vision par ordinateur qui utilise la capacité de Gemini 2.5 Pro à lire du texte dans des images. Dans le bloc-notes, vous pouvez fournir au modèle une image contenant du texte ainsi qu'une invite à extraire ce texte. Le modèle traite l'image et renvoie à la fois le texte détecté et les coordonnées où se trouve le texte, comme illustré ci-dessous.
Les fonctions du paquetage Python Ultralytics sont ensuite utilisées pour convertir ces coordonnées normalisées en dimensions réelles de l'image et pour dessiner des boîtes de délimitation autour des zones de texte. Cette sortie annotée indique clairement où se trouve le texte, ce qui est utile pour numériser les documents, automatiser la saisie des données et améliorer l'accessibilité.
Fig. 4. Extraction de données textuelles dans une image à l'aide de Google Gemini 2.5.
Applications concrètes de Google Gemini 2.5
Maintenant que nous avons vu comment Google Gemini 2.5 Pro peut être utilisé pour diverses tâches de vision par ordinateur, explorons quelques applications du monde réel dans lesquelles ces capacités peuvent être utilisées.
La capacité de détection d'objets de Gemini 2.5 Pro, par exemple, permet d'étiqueter et d'organiser automatiquement de grands ensembles d'images, ce qui accélère les tâches telles que la création d'ensembles de données ou la gestion de contenu. Elle peut également être utilisée pour analyser des images dans des domaines tels que la vente au détail et l'agriculture - par exemple, pour détecter des produits sur des étagères ou identifier des signes de stress dans des photos d'exploitations agricoles.
Fig 5. Gemini 2.5 Pro analyse la santé d'une plante.
Par ailleurs, la fonction de légende d'image du modèle peut aider les utilisateurs malvoyants à comprendre le contenu d'une image. Par exemple, si vous avez une photo d'une rue animée, le modèle peut produire une légende qui décrit la scène en détail, en mentionnant les types de véhicules, l'activité des piétons et même l'heure de la journée en se basant sur les indices d'éclairage.
En outre, la fonctionnalité OCR de Gemini 2.5 peut être utilisée dans une variété d'applications. Par exemple, vous pouvez numériser des documents imprimés en scannant des pages ou des reçus. Cette capacité est idéale pour automatiser les tâches de saisie de données, traiter les formulaires ou même lire le texte des cartes de visite et de la signalétique.
Dans l'ensemble, Google Gemini 2.5 Pro ouvre la voie à un large éventail d'applications pratiques de l'IA.
Principaux enseignements
Au-delà de la génération et de l'analyse de texte, Google Gemini 2.5 Pro peut être utilisé pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères (OCR). Grâce à son énorme fenêtre contextuelle et à ses capacités de raisonnement améliorées, il produit des résultats détaillés et adaptés au contexte qui fonctionnent bien dans les scénarios du monde réel.
Alors que les modèles d'IA continuent d'évoluer, des outils comme Gemini 2.5 Pro facilitent la résolution de problèmes complexes dans tous les secteurs d'activité. Il est probable que nous assisterons à une adoption encore plus large de l'IA, car de plus en plus d'organisations recherchent des solutions flexibles et multimodales capables de gérer un large éventail de tâches, de la compréhension visuelle au traitement du langage.