Apprends comment YOLOE te permet de trouver des objets à l'aide d'une simple invite ou d'une photo. Il permet une vision par ordinateur plus intelligente et plus rapide sans avoir à réapprendre ou à affiner les modèles.
La détection d'objets est une tâche clé de la vision par ordinateur, dont l'objectif est d'identifier et de localiser des objets dans des images ou des vidéos. C'est une partie cruciale de la vision par ordinateur, un domaine de l'intelligence artificielle (IA) qui permet aux machines de comprendre et d'interpréter les données visuelles. Par exemple, la détection d'objets peut aider à identifier une voiture sur une photo ou à repérer une personne dans un flux vidéo.
L'une des séries les plus connues de modèles prenant en charge des tâches de vision par ordinateur telles que la détection d'objets est la série de modèles YOLO (You Only Look Once). Conçus pour être rapides et précis, les modèles YOLO se sont continuellement améliorés au fil du temps. Par exemple, l'une des dernières versions, Ultralytics YOLO11est très performante dans des situations réelles, fournissant des résultats précis même dans des environnements plus complexes.
Pour aller plus loin, un nouveau modèle appelé YOLOE vise à étendre les capacités des modèles YOLO . Contrairement aux modèles traditionnels qui nécessitent un réentraînement pour reconnaître de nouveaux objets, YOLOE peut suivre de simples invites sous forme de texte ou d'image pour détecter des objets qu'il n'a jamais vus auparavant, ce qui le rend beaucoup plus adaptable aux environnements changeants.
Dans cet article, nous allons examiner de plus près ce qui rend YOLOE unique, comment il se compare aux modèles YOLO précédents, et comment tu peux commencer à l'utiliser dès aujourd'hui. C'est parti !
YOLOE est un modèle de vision par ordinateur qui permet d'aller plus loin dans la détection des objets. Il a été présenté en mars 2025 par des chercheurs de l'université de Tsinghua. Ce qui différencie YOLOE des modèles traditionnels, c'est son utilisation de la détection de vocabulaire ouvert.
Alors que la plupart des modèles sont formés pour reconnaître une liste fixe d'objets, YOLOE te permet de spécifier ce que tu cherches à l'aide d'une courte description ou d'une image d'exemple. Par exemple, si tu cherches un "sac à dos vert", tu peux soit taper cette description, soit montrer une photo au modèle, et YOLOE le localisera dans la scène.
De plus, même sans aucune invite, YOLOE peut détecter seul de nombreux objets de la vie quotidienne. Cette capacité à reconnaître des objets qu'il n'a jamais vus auparavant s'appelle la détection zéro-coup. Elle est particulièrement utile dans les environnements dynamiques où la tâche ou les objets d'intérêt peuvent changer de façon inattendue.
YOLOE prend en charge un large éventail de fonctions conçues pour améliorer ses performances dans les applications du monde réel. Grâce à sa capacité à traiter des données structurées et non structurées, YOLOE ouvre de nouvelles possibilités en matière de détection et de segmentation d'objets.
Voici quelques-unes des principales caractéristiques que le modèle apporte à la table :
Maintenant que nous comprenons mieux ce qu'est YOLOE, jetons un coup d'œil à certains modèles de la famille YOLO qui sont similaires.
Au fur et à mesure que la vision par ordinateur a progressé, les modèles YOLO ont également évolué. Par exemple , Ultralytics YOLOv8 a pris en charge de nouvelles tâches telles que la segmentation et la classification, tandis que les versions ultérieures, comme Ultralytics YOLO11, se sont concentrées sur l'amélioration de la précision et des performances pour un plus grand nombre de tâches.
De plus, YOLO est sorti en janvier 2024 et a introduit la possibilité d'utiliser des invites écrites, permettant aux utilisateurs de décrire les objets qu'ils veulent trouver. Bien que YOLO soit une excellente option pour la détection du zéro pointé, il lui manquait des fonctionnalités telles que la segmentation des instances et le soutien des invites visuelles.
YOLOE s'appuie sur YOLO en ajoutant ces capacités, en améliorant la flexibilité et les performances, et en offrant un outil plus performant pour les applications de vision par ordinateur dans le monde réel.
Que tu veuilles détecter des objets spécifiques ou explorer tout ce qui se trouve dans une image, démarrer avec YOLOE est simple. Ce modèle est pris en charge par le packagePython Ultralytics , ce qui facilite son intégration dans tes projets. Ensuite, voyons comment l'utiliser.
La première étape consiste à installer le paquetUltralytics Python à l'aide d'un gestionnaire de paquets tel que " pip ". Tu peux le faire en exécutant la commande "pip install ultralytics" dans ton terminal ou à l'invite de commande.
Une fois le paquet installé, tu auras tout ce qu'il faut pour charger le modèle, faire des prédictions et expérimenter différents modes de détection. Si tu rencontres des problèmes lors de l'installation, la documentation officielle d'Ultralytics propose une section de dépannage utile.
Il y a plusieurs façons d'utiliser YOLOE pour effectuer des prédictions. Exécuter des prédictions signifie utiliser le modèle entraîné pour identifier et localiser des objets dans des images ou des vidéos. Ces différentes méthodes te permettent de personnaliser la façon dont tu interagis avec le modèle en fonction de tes besoins spécifiques.
Discutons de chacune de ces méthodes, l'une après l'autre.
YOLOE peut détecter des objets à partir d'une courte description textuelle. Par exemple, si tu cherches un cheval en mouvement, tu peux utiliser une invite comme "cheval qui marche".
Pour commencer, charge d'abord le modèle YOLOE pré-entraîné et définis ton invite (la description de ce que tu veux que le modèle recherche) comme indiqué dans l'extrait de code ci-dessous.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Une fois que ton modèle et ton invite sont définis, tu peux exécuter le modèle sur une image ou une vidéo. Remplace le chemin d'accès au fichier dans le code par le chemin d'accès à ton fichier image ou vidéo :
results = model.predict("path/to/your/image.jpg")
results[0].show()
L'image s'affiche alors avec l'objet détecté clairement indiqué en fonction de ton invite. Tu peux modifier l'invite pour rechercher différents objets, comme "valise rouge", "vélo" ou "zèbre", en fonction de ce que tu cherches.
De la même façon, tu peux utiliser une image pour inviter YOLOE avec le paquetagePython Ultralytics . En mode d'incitation visuelle, le modèle utilise l'image pour trouver des éléments d'apparence similaire dans une autre scène. Cette fonction est particulièrement utile pour les objets difficiles à décrire ou pour lesquels il n'existe pas d'étiquettes claires.
Pour explorer plus en détail le code correspondant, tu peux consulter la documentation d'Ultralytics .
Dans certains cas, il se peut que tu ne saches pas exactement quoi chercher, ou que tu ne cherches pas un objet en particulier. C'est là que le mode sans invite s'avère utile.
Avec cette option, tu n'as pas besoin de taper une description ou de fournir une image d'exemple. YOLOE analyse simplement les images par lui-même et détecte tout ce qu'il peut reconnaître, comme les personnes, les animaux, les meubles ou les objets du quotidien.
C'est un moyen utile d'explorer une scène sans donner d'instructions spécifiques au modèle. Que tu scrutes une salle bondée ou que tu examines des séquences avec beaucoup d'activité, le mode sans invite te donne un aperçu rapide de ce qui est présent dans une image.
Tu peux utiliser le code suivant pour exécuter YOLOE en mode sans invite. Tout d'abord, le modèle est chargé, puis il traite l'image et détecte automatiquement les objets qu'elle contient. Enfin, les résultats sont affichés et les objets détectés sont mis en évidence.
Veille à remplacer le chemin d'accès au fichier par le chemin d'accès réel à ton image.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'image ci-dessous est un exemple de ce que YOLOE peut détecter en mode sans invite.
La capacité de YOLOE à répondre à des invites textuelles et visuelles en fait un outil fiable pour les applications en temps réel. Sa flexibilité est particulièrement utile dans les environnements en évolution rapide où le timing et la précision sont essentiels.
Explorons quelques exemples concrets de la façon dont YOLOE peut être utilisé.
Dans les aéroports très fréquentés, localiser des bagages spécifiques peut s'avérer difficile, surtout lorsqu'il s'agit de sacs manquants. YOLOE peut rationaliser ce processus en aidant à scanner des vidéos en direct et en identifiant rapidement les articles à partir d'invites simples comme "sac rouge".
Si un sac est manquant ou égaré, le personnel peut facilement modifier l'invite pour rechercher un autre article, par exemple une "valise noire". Cette capacité d'adaptation instantanée peut aider le personnel de l'aéroport à localiser rapidement le bon bagage sans avoir à revoir de longues heures de séquences ou à réapprendre le modèle, ce qui rend la manutention des bagages et la résolution des problèmes de bagages manquants beaucoup plus rapides et efficaces.
Les séquences de surveillance des espaces publics, tels que les marchés et les cafés bondés, comprennent souvent un mélange de personnes, d'objets et d'activités qui changent tout au long de la journée. YOLOE peut analyser ces séquences en temps réel en utilisant le mode sans invite, en détectant automatiquement des objets tels que des sacs, des tables ou des vélos sans avoir besoin d'instructions spécifiques.
Cela est particulièrement utile aux équipes de sécurité pour repérer les objets sans surveillance ou suivre les mouvements de foule. La capacité de YOLOE à détecter plusieurs objets à la fois facilite la gestion des espaces publics lors d'événements ou de périodes d'affluence, en aidant les équipes à rester informées et réactives.
Voici quelques-uns des principaux avantages de l'utilisation de YOLOE pour les applications de vision par ordinateur :
Cependant, il y a quelques limites à garder à l'esprit lorsque tu utilises YOLOE. Voici quelques facteurs à prendre en compte :
YOLOE apporte plus de flexibilité à la vision par ordinateur en permettant aux utilisateurs de guider la détection à l'aide de textes ou d'images. Il fonctionne bien dans les situations réelles où les scènes changent rapidement et où le réentraînement n'est pas une option.
De la manutention des bagages à la surveillance des espaces publics, YOLOE s'adapte facilement à de nouvelles tâches. Alors que l'IA devient plus accessible, des modèles comme YOLOE aident davantage d'industries à utiliser la technologie de la vision de manière pratique et efficace.
Rejoins notre communauté et explore notre dépôt GitHub pour en savoir plus sur les innovations en matière d'IA. Découvre les dernières avancées dans des domaines tels que l 'IA dans le commerce de détail et la vision par ordinateur dans les soins de santé sur nos pages de solutions. Vérifie nos options de licence et lance-toi dans la vision par ordinateur dès aujourd'hui !
Commence ton voyage avec le futur de l'apprentissage automatique.