En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment YOLOE vous permet de trouver des objets à l'aide d'une simple invite ou d'une photo. Il permet une vision par ordinateur plus intelligente et plus rapide sans réentraînement ni réglage fin des modèles.
La détection d'objets est une tâche clé de la vision par ordinateur, dont le but est d'identifier et de localiser des objets dans des images ou des vidéos. C'est un élément essentiel de la vision par ordinateur, un domaine de l'intelligence artificielle (IA) qui permet aux machines de comprendre et d'interpréter les données visuelles. Par exemple, la détection d'objets peut aider à identifier une voiture sur une image ou à repérer une personne dans un flux vidéo.
L'une des séries de modèles les plus connues prenant en charge les tâches de vision par ordinateur comme la détection d'objets est la série de modèles YOLO (You Only Look Once). Conçus pour la vitesse et la précision, les modèles YOLO se sont continuellement améliorés au fil du temps. Par exemple, l'une des dernières versions, Ultralytics YOLO11, fonctionne bien dans des situations réelles, fournissant des résultats précis même dans des environnements plus complexes.
Pour faire progresser ces avancées, un nouveau modèle appelé YOLOE vise à étendre les capacités des modèles YOLO. Contrairement aux modèles traditionnels qui nécessitent un réentraînement pour reconnaître de nouveaux objets, YOLOE peut suivre de simples invites textuelles ou visuelles pour détecter des objets qu'il n'a jamais vus, ce qui le rend beaucoup plus adaptable aux environnements changeants.
Dans cet article, nous allons examiner de plus près ce qui rend YOLOE unique, comment il se compare aux modèles YOLO précédents et comment vous pouvez commencer à l'utiliser dès aujourd'hui. Commençons !
Présentation de YOLOE
YOLOE est un modèle de vision par ordinateur qui fait progresser la détection d'objets. Il a été présenté en mars 2025 par des chercheurs de l'université de Tsinghua. Ce qui distingue YOLOE des modèles traditionnels, c'est son utilisation de la détection à vocabulaire ouvert.
Bien que la plupart des modèles soient entraînés pour reconnaître une liste fixe d'objets, YOLOE vous permet de spécifier ce qu'il faut rechercher à l'aide d'une courte description ou d'un exemple d'image. Par exemple, si vous recherchez un "sac à dos vert", vous pouvez soit taper cette description, soit montrer au modèle une photo, et YOLOE le localisera dans la scène.
De plus, même sans aucune invite, YOLOE peut détecter de nombreux objets courants par lui-même. Cette capacité à reconnaître des objets qu'il n'a jamais vus auparavant est appelée détection zéro-shot. Elle est particulièrement utile dans les environnements dynamiques où la tâche ou les objets d'intérêt peuvent changer de manière inattendue.
YOLOE prend en charge un large éventail de fonctionnalités conçues pour améliorer ses performances dans les applications du monde réel. Grâce à sa capacité à traiter les entrées structurées et non structurées, YOLOE ouvre de nouvelles possibilités pour la détection et la segmentation d'objets.
Voici quelques-unes des principales caractéristiques que le modèle apporte :
Détection basée sur les prompts : YOLOE peut rechercher des objets en fonction d'un court prompt textuel ou d'un exemple d'image. Cela signifie que vous n'avez pas besoin de réentraîner le modèle à chaque fois que votre tâche change ; décrivez ou montrez simplement au modèle ce que vous recherchez.
Segmentation d'instance: En plus de dessiner des boîtes englobantes autour des objets, YOLOE peut délimiter leur forme exacte en utilisant la segmentation d'instance. Ceci est particulièrement utile lorsque les objets se chevauchent ou lorsque vous avez besoin de connaître les limites précises d'un objet.
Reconnaissance d'objets sans prompt : YOLOE peut reconnaître des objets même sans instructions spécifiques. Il utilise un ensemble de descriptions pré-apprises pour identifier rapidement les objets, ce qui rend le processus plus rapide et plus efficace.
Comparaison de YOLOE avec d'autres modèles YOLO
Maintenant que nous avons une meilleure compréhension de ce qu'est YOLOE, jetons un coup d'œil à certains des modèles de la famille YOLO qui sont similaires.
Au fur et à mesure des progrès de la vision par ordinateur, les modèles YOLO ont également évolué. Par exemple, Ultralytics YOLOv8 a apporté la prise en charge de nouvelles tâches telles que la segmentation et la classification, tandis que les versions ultérieures, comme Ultralytics YOLO11, se sont concentrées sur l'amélioration de la précision et des performances pour un plus large éventail de tâches.
De plus, YOLO-World a été lancé en janvier 2024 et a introduit la possibilité d'utiliser des invites écrites, permettant aux utilisateurs de décrire les objets qu'ils souhaitent trouver. Bien que YOLO-World soit une excellente option pour la détection zero-shot, il lui manquait des fonctionnalités telles que la segmentation d'instance et la prise en charge des invites visuelles.
YOLOE s'appuie sur YOLO-World en ajoutant ces fonctionnalités, en améliorant la flexibilité et les performances, et en offrant un outil plus percutant pour les applications de vision par ordinateur du monde réel.
Fig. 2. YOLO-World et YOLOE prennent tous deux en charge la détection zero-shot.
Utilisation de YOLOE avec le package Python Ultralytics
Que vous souhaitiez détecter des objets spécifiques ou explorer tout ce qui se trouve dans une image, il est facile de commencer avec YOLOE. Ce modèle est pris en charge par le paquet Python Ultralytics, ce qui facilite son intégration dans vos projets. Voyons maintenant comment l'utiliser.
Installation du paquet Ultralytics
La première étape consiste à installer le package Python Ultralytics à l'aide d'un gestionnaire de packages tel que ‘pip’. Vous pouvez le faire en exécutant la commande “pip install ultralytics” dans votre terminal ou votre invite de commande.
Une fois le paquet installé, vous aurez tout ce dont vous avez besoin pour charger le modèle, faire des prédictions et expérimenter différents modes de détection. Si vous rencontrez des problèmes lors de l'installation, la documentation officielle d'Ultralytics propose une section de dépannage utile.
Il existe différentes manières d'utiliser YOLOE pour exécuter des prédictions. L'exécution de prédictions signifie utiliser le modèle entraîné pour identifier et localiser des objets dans des images ou des vidéos. Ces différentes méthodes vous permettent de personnaliser votre interaction avec le modèle en fonction de vos besoins spécifiques.
Examinons chacune de ces méthodes, une par une.
Détection d'objets spécifiques avec des invites textuelles ou d'image
YOLOE peut détecter des objets sur la base d'une brève description textuelle. Par exemple, si vous recherchez un cheval en mouvement, vous pouvez utiliser une invite telle que "cheval qui marche".
Pour commencer, chargez d'abord le modèle YOLOE pré-entraîné et définissez votre invite (la description de ce que vous voulez que le modèle recherche) comme indiqué dans l'extrait de code ci-dessous.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Une fois votre modèle et votre prompt définis, vous pouvez exécuter le modèle sur une image ou une vidéo. Remplacez le chemin du fichier dans le code par le chemin de votre fichier image ou vidéo :
Ceci affichera l'image avec l'objet détecté clairement marqué en fonction de votre invite. Vous pouvez modifier l'invite pour rechercher différents objets, tels que « valise rouge », « bicyclette » ou « zèbre », selon ce que vous recherchez.
Fig 3. Un exemple d'utilisation de YOLOE pour détecter des objets spécifiques à l'aide d'une invite textuelle.
De même, vous pouvez utiliser une image pour inviter YOLOE avec le package Python Ultralytics. En mode d'invite visuelle, le modèle utilise l'image pour trouver des éléments d'apparence similaire dans une autre scène. Ceci est particulièrement utile pour les objets difficiles à décrire ou qui n'ont pas d'étiquettes claires.
Dans certains cas, vous ne savez peut-être pas exactement ce que vous recherchez, ou vous ne recherchez pas un objet particulier. C'est là que le mode sans invite s'avère utile.
Avec cette option, vous n'avez pas besoin de saisir une description ni de fournir un exemple d'image. YOLOE analyse simplement les images par lui-même et détecte tout ce qu'il peut reconnaître, comme les personnes, les animaux, les meubles ou les objets du quotidien.
C'est un moyen utile d'explorer une scène sans donner d'instructions spécifiques au modèle. Que vous soyez en train de scanner une pièce bondée ou de revoir des séquences avec beaucoup d'activité, le mode sans invite vous donne un aperçu rapide de ce qui est présent dans une image.
Vous pouvez utiliser le code suivant pour exécuter YOLOE en mode sans invite. Tout d'abord, le modèle est chargé, puis il traite l'image et détecte automatiquement les objets qu'elle contient. Enfin, les résultats sont affichés et les objets détectés sont mis en évidence.
Veillez à remplacer le chemin d'accès au fichier par le chemin d'accès réel à votre image.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'image ci-dessous est un exemple de ce que YOLOE peut détecter en mode sans invite.
Fig. 4. Utilisation de YOLOE en mode sans invite.
Applications en temps réel de YOLOE
La capacité de YOLOE à répondre aux invites textuelles et visuelles en fait un outil fiable pour les applications en temps réel. Sa flexibilité est particulièrement utile dans les environnements dynamiques où le timing et la précision sont essentiels.
Explorons quelques exemples concrets de l'utilisation de YOLOE.
Amélioration du traitement des bagages : détection des bagages en temps réel
Dans les aéroports très fréquentés, la localisation de bagages spécifiques peut être difficile, en particulier lorsqu'il s'agit de sacs manquants. YOLOE peut rationaliser ce processus en aidant à scanner des vidéos en direct et à identifier rapidement les articles en fonction d'invites simples comme « sac rouge ».
Si un sac est manquant ou égaré, le personnel peut facilement modifier l'invite pour rechercher un article différent, tel qu'une “valise noire.” Cette capacité d'adaptation instantanée peut aider le personnel de l'aéroport à localiser rapidement le bon bagage sans avoir à visionner de longues heures d'images ou à réentraîner le modèle, ce qui rend la manutention des bagages et la résolution des problèmes de bagages manquants beaucoup plus rapides et efficaces.
Surveillance des espaces publics avec YOLOE
Les séquences de surveillance des espaces publics, tels que les marchés et les cafés bondés, comprennent souvent un mélange de personnes, d'objets et d'activités qui changent tout au long de la journée. YOLOE peut analyser ces séquences en temps réel en utilisant le mode sans invite, en détectant automatiquement des éléments tels que des sacs, des tables ou des vélos sans avoir besoin d'instructions spécifiques.
Fig 5. YOLOE peut détecter divers objets dans un espace public fréquenté.
Ceci est particulièrement utile pour les équipes de sécurité afin de repérer les objets sans surveillance ou de suivre les mouvements de foule. La capacité de YOLOE à détecter plusieurs objets à la fois facilite la gestion des espaces publics lors d'événements ou de périodes de forte affluence, aidant ainsi les équipes à rester informées et réactives.
Avantages et inconvénients de YOLOE
Voici quelques-uns des principaux avantages de l'utilisation de YOLOE pour les applications de vision par ordinateur :
Performance en temps réel : YOLOE est optimisé pour un traitement rapide et efficace, permettant une détection en temps réel, même dans des environnements dynamiques tels que les flux vidéo en direct ou les espaces publics très fréquentés.
Scalabilité : YOLOE est scalable et fonctionne bien pour une grande variété d'applications, de la sécurité et de la surveillance au commerce de détail, en passant par la santé et les véhicules autonomes.
Facile à utiliser : Étant donné que YOLOE est pris en charge par le package Python Ultralytics, il est facile de l'intégrer à vos projets de vision par ordinateur existants.
Cependant, il existe quelques limitations à garder à l'esprit lors de l'utilisation de YOLOE. Voici quelques facteurs à prendre en compte :
Nécessite suffisamment de données d’entraînement : Bien que YOLOE prenne en charge la détection zero-shot, ses performances sur des objets non vus dépendent de sa capacité à généraliser à partir de ses données d’entraînement. Dans certains cas, il peut avoir besoin de données supplémentaires ou d’un réglage fin pour bien fonctionner dans des tâches très spécialisées.
Sensible à la qualité des entrées : La précision du modèle peut être affectée par des images ou des vidéos de mauvaise qualité. Une entrée floue ou mal éclairée peut réduire la capacité du modèle à détecter avec précision les objets. Il est donc important d'avoir une entrée de haute qualité pour des performances optimales.
Principaux points à retenir
YOLOE apporte plus de flexibilité à la vision par ordinateur en permettant aux utilisateurs de guider la détection avec des invites textuelles ou visuelles. Il fonctionne bien dans des situations réelles où les scènes changent rapidement et où le réentraînement n'est pas une option.
De la manutention des bagages à la surveillance des espaces publics, YOLOE s'adapte facilement à de nouvelles tâches. À mesure que l'IA devient plus accessible, les modèles comme YOLOE aident de plus en plus d'industries à utiliser la technologie de vision de manière pratique et efficace.