En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment vous pouvez utiliser Google Gemini 2.5 pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et l'OCR pour les solutions Vision AI.
Les progrès de l'IA sont rapides et de nouvelles innovations font la une des journaux presque tous les jours. Gemini 2.5, le dernier modèle multimodal de Google DeepMind, lancé le 26 mars, est l'une de ces avancées récentes. Alors que les grands modèles de langage (LLM) traditionnels peuvent apprendre à partir de quantités massives de données pour générer des textes semblables à ceux des humains, Gemini 2.5 va plus loin.
Il est conçu comme un « modèle de pensée » capable de traiter des images, de l'audio et de la vidéo. Il possède des compétences améliorées en matière de raisonnement et de codage. Il est intéressant de noter qu'il fonctionne également exceptionnellement bien en ce qui concerne les tâches de vision par ordinateur, où les machines interprètent et analysent les données visuelles, telles que la détection d'objets, la légende d'images et la reconnaissance optique de caractères (OCR).
Fig. 1. Un exemple d'utilisation de Gemini 2.5 pour comprendre le contenu d'une image.
Dans cet article, nous allons parcourir l'un des carnets d'Ultralyticsqui peut vous aider à vous familiariser avec les capacités de vision par ordinateur de Gemini 2.5. Nous examinerons également de plus près les principales caractéristiques de Gemini 2.5 et montrerons comment il peut être utilisé pour créer des solutions de vision par ordinateur pour des applications réelles. C'est parti !
Aperçu de Gemini 2.5 : fonctionnalités et capacités
La première version de la série de modèles Gemini 2.5 qui vient d'être publiée est une version expérimentale de Gemini 2.5 Pro. Elle est conçue pour traiter des problèmes complexes en analysant ses réponses avant de les donner. Elle utilise des méthodes telles que l'apprentissage par renforcement (où le modèle apprend à partir du feedback) et l'invite de chaînes de pensée (une approche étape par étape de la résolution de problèmes).
L'une de ses principales caractéristiques est son immense fenêtre contextuelle, qui peut contenir 1 million de jetons (environ un million de mots ou de parties de mots) et qui devrait atteindre 2 millions. Cela signifie que le modèle peut assimiler beaucoup d'informations à la fois, ce qui conduit à des résultats plus détaillés et plus précis.
En plus du traitement du langage, Gemini 2.5 peut être utilisé pour les tâches de vision par ordinateur suivantes :
Détection d'objets : Il s'agit du processus d'identification et de localisation d'objets dans une image. Elle peut être utilisée dans des applications telles que la surveillance ou les voitures autonomes.
Légendes d'images : Cette tâche consiste à générer un texte descriptif pour une image. Elle rend le contenu visuel plus accessible et plus facile à comprendre.
Reconnaissance optique de caractères : Cette technologie convertit le texte trouvé dans les images en texte modifiable et lisible par machine. Elle est utile pour numériser des documents et automatiser la saisie de données.
Analyse comparative et comparaison de Google Gemini 2.5 avec d'autres modèles
Il existe aujourd'hui plusieurs modèles multimodaux dans le domaine de l'IA, il est donc important de comprendre comment Gemini 2.5 Pro se situe par rapport à eux. D'après les résultats d'analyse comparative partagés par DeepMind de Google, Gemini 2.5 Pro affiche des performances impressionnantes dans toute une série de tâches.
Par exemple, lors d'un test appelé Humanity’s Last Exam, qui simule un examen difficile couvrant de nombreux sujets et testant le raisonnement avancé et les connaissances générales, Gemini 2.5 Pro obtient un score d'environ 18,8 %, surpassant des modèles tels que o3-mini d'OpenAI, qui obtient un score d'environ 14 %.
Fig 2. Un aperçu des performances de référence de Gemini 2.5 Pro.
Il est également très performant dans les défis mathématiques et de codage, égalant ou dépassant souvent les performances de modèles tels que OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta et DeepSeek R1, démontrant ainsi sa capacité à gérer des tâches complexes et à traiter de grandes quantités de données.
Mise en pratique de Gemini 2.5 : Comment utiliser l'API Google Gemini
Gemini 2.5 Pro est disponible sur plusieurs plateformes. Vous pouvez l'expérimenter dans Google AI Studio et y accéder via l'application Gemini pour les utilisateurs de Gemini Advanced. Dans son annonce de lancement, Google DeepMind a également mentionné que le modèle sera bientôt pris en charge par Vertex AI. Ces points d'accès permettent aux développeurs d'utiliser facilement Gemini 2.5 Pro pour des applications d'IA réelles.
Cependant, si vous souhaitez utiliser l'API Google Gemini et démarrer en quelques minutes sans configuration compliquée, et si vous cherchez à mieux comprendre ses capacités de vision par ordinateur, vous pouvez consulter le carnetUltralytics qui présente des tâches telles que la détection d'objets et le sous-titrage d'images à l'aide de Gemini 2.5 Pro. Voyons en détail ce que vous pouvez attendre du notebook.
Configuration de l'inferencing avec l'ordinateur portable Google Gemini 2.5
Pour commencer à utiliser le carnet Ultralytics et Google Gemini 2.5, vous devez d'abord générer une clé API via Google AI Studio. Cette clé vous donne accès à l'API Gemini afin que vous puissiez utiliser le modèle.
Une fois que vous avez votre clé API, assurez-vous que votre environnement a les bibliothèques nécessaires installées - il s'agit notamment des paquets de Ultralytics et de la boîte à outils AI de Google. Cette étape est clairement décrite dans le carnet de notes, de sorte que vous pouvez facilement suivre les instructions pour configurer votre espace de travail.
Une fois que tout est configuré, vous pouvez vous connecter à l'API Gemini en saisissant votre clé d'API (comme indiqué ci-dessous), ce qui crée un lien entre votre espace de travail et le modèle. Après cela, vous serez prêt à envoyer des images et des invites de texte à Gemini 2.5.
Pour l'essentiel, vous pouvez fournir une image et une instruction simple (comme "detect objets dans cette image" ou "décrire ce que vous voyez") au modèle, qui vous renverra les résultats dont vous avez besoin. Ce processus simple facilite l'exploration des capacités de vision par ordinateur de Gemini 2.5.
Détection d'objets avec Google Gemini 2.5
L'un des exemples clés du carnet est la détection d'objets à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une simple invite à detect objets.
Le modèle traite l'image et renvoie un ensemble de coordonnées et d'étiquettes pour chaque objet trouvé ; ces coordonnées sont données sous forme normalisée. Les fonctions du logicielUltralytics Python sont ensuite utilisées pour convertir ces valeurs normalisées afin qu'elles correspondent aux dimensions réelles de l'image et pour dessiner des boîtes de délimitation claires autour de chaque objet, comme le montre l'illustration ci-dessous.
Fig. 3. Utilisation de Google Gemini 2.5 pour la détection d'objets.
Légende d'images à l'aide de Gemini 2.5
Un autre exemple intéressant dans le notebook est la légende d'image à l'aide de Gemini 2.5 Pro. Dans cet exemple, vous fournissez au modèle une image et une invite lui demandant de générer une légende détaillée qui décrit ce qu'il y a dans l'image.
Le modèle analyse ensuite le contenu visuel et renvoie un récit, souvent formaté en plusieurs phrases, qui capture à la fois le contenu et le contexte de l'image. Cette fonctionnalité est utile pour améliorer l'accessibilité, résumer les informations visuelles et même améliorer la narration créative.
Améliorer la précision de l'OCR avec les modèles Google Gemini
Une tâche de vision par ordinateur qui utilise la capacité de Gemini 2.5 Pro à lire du texte dans des images est la ROC (reconnaissance optique de caractères). Dans le notebook, vous pouvez fournir au modèle une image contenant du texte ainsi qu'une invite pour extraire ce texte. Le modèle traite l'image et renvoie à la fois le texte détecté et les coordonnées où se trouve le texte, comme indiqué ci-dessous.
Les fonctions du paquetagePython Ultralytics sont ensuite utilisées pour convertir ces coordonnées normalisées en dimensions réelles de l'image et pour dessiner des boîtes de délimitation autour des zones de texte. Cette sortie annotée indique clairement où se trouve le texte, ce qui est utile pour numériser les documents, automatiser la saisie des données et améliorer l'accessibilité.
Fig. 4. Extraction de données textuelles dans une image à l'aide de Google Gemini 2.5.
Applications concrètes de Google Gemini 2.5
Maintenant que nous avons vu comment Google Gemini 2.5 Pro peut être utilisé pour diverses tâches de vision par ordinateur, explorons quelques applications du monde réel dans lesquelles ces capacités peuvent être utilisées.
La capacité de détection d'objets de Gemini 2.5 Pro, par exemple, peut aider à étiqueter et à organiser automatiquement de grands ensembles d'images, ce qui accélère considérablement les tâches telles que la création de jeux de données ou la gestion de contenu. Il peut également être utilisé pour analyser des images dans des domaines tels que le commerce de détail et l'agriculture - par exemple, pour détecter des produits sur les étagères ou identifier des signes de stress des cultures sur des photos de ferme.
Fig 5. Gemini 2.5 Pro analysant la santé d'une plante.
Parallèlement, la fonctionnalité de légende d'image du modèle peut aider les utilisateurs malvoyants à comprendre ce qu'il y a dans une image. Par exemple, si vous avez une photo d'une rue animée, le modèle peut produire une légende qui décrit la scène en détail, mentionnant les types de véhicules, l'activité des piétons et même l'heure de la journée en fonction des indices d'éclairage.
De plus, la fonctionnalité OCR de Gemini 2.5 peut être utilisée dans diverses applications. Par exemple, vous pouvez numériser des documents imprimés en scannant des pages ou des reçus. Cette capacité est idéale pour automatiser les tâches de saisie de données, traiter les formulaires ou même lire du texte à partir de cartes de visite et de panneaux de signalisation.
Dans l'ensemble, Google Gemini 2.5 Pro ouvre la voie à un large éventail d'applications pratiques de l'IA.
Principaux points à retenir
Au-delà de la génération et de l'analyse de texte, Google Gemini 2.5 Pro peut être utilisé pour des tâches de vision artificielle telles que la détection d'objets, le sous-titrage d'images et la reconnaissance optique de caractères (OCR). Grâce à son énorme fenêtre contextuelle et à ses capacités de raisonnement améliorées, il produit des résultats détaillés et adaptés au contexte qui fonctionnent bien dans les scénarios du monde réel.
À mesure que les modèles d'IA continuent d'évoluer, des outils comme Gemini 2.5 Pro facilitent la résolution de problèmes complexes dans tous les secteurs. Il est probable que nous assisterons à une adoption encore plus large de l'IA, car de plus en plus d'organisations recherchent des solutions multimodales flexibles capables de gérer un large éventail de tâches, de la compréhension visuelle au traitement du langage.