En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment YOLOE vous permet de trouver des objets à l'aide d'une simple invite ou d'une photo. Il permet une vision par ordinateur plus intelligente et plus rapide sans réentraînement ni réglage fin des modèles.
La détection d'objets est une tâche clé de la vision par ordinateur, dont le but est d'identifier et de localiser des objets dans des images ou des vidéos. C'est un élément essentiel de la vision par ordinateur, un domaine de l'intelligence artificielle (IA) qui permet aux machines de comprendre et d'interpréter les données visuelles. Par exemple, la détection d'objets peut aider à identifier une voiture sur une image ou à repérer une personne dans un flux vidéo.
La série de modèles YOLO (You Only Look Once) est l'une des séries de modèles les plus connues pour les tâches de vision artificielle telles que la détection d'objets. Conçus pour être rapides et précis, les modèles YOLO ont été continuellement améliorés au fil du temps. Par exemple, l'une des dernières versions, Ultralytics YOLO11est très performant dans des situations réelles, fournissant des résultats précis même dans des environnements plus complexes.
Pour aller plus loin, un nouveau modèle appelé YOLOE vise à étendre les capacités des modèles YOLO . Contrairement aux modèles traditionnels qui nécessitent un réapprentissage pour reconnaître de nouveaux objets, YOLOE peut suivre un simple texte ou une image pour detect objets qu'il n'a jamais vus auparavant, ce qui le rend beaucoup plus adaptable à des environnements changeants.
Dans cet article, nous allons examiner de plus près ce qui rend YOLOE unique, comment il se compare aux modèles YOLO précédents et comment vous pouvez commencer à l'utiliser dès aujourd'hui. C'est parti !
Présentation de YOLOE
YOLOE est un modèle de vision par ordinateur qui fait progresser la détection d'objets. Il a été présenté en mars 2025 par des chercheurs de l'université de Tsinghua. Ce qui distingue YOLOE des modèles traditionnels, c'est son utilisation de la détection à vocabulaire ouvert.
Bien que la plupart des modèles soient entraînés pour reconnaître une liste fixe d'objets, YOLOE vous permet de spécifier ce qu'il faut rechercher à l'aide d'une courte description ou d'un exemple d'image. Par exemple, si vous recherchez un "sac à dos vert", vous pouvez soit taper cette description, soit montrer au modèle une photo, et YOLOE le localisera dans la scène.
En outre, même sans aucune invite, YOLOE peut detect seul de nombreux objets de la vie quotidienne. Cette capacité à reconnaître des objets qu'il n'a jamais vus auparavant s'appelle la détection "zero-shot". Elle est particulièrement utile dans les environnements dynamiques où la tâche ou les objets d'intérêt peuvent changer de manière inattendue.
YOLOE prend en charge un large éventail de fonctionnalités conçues pour améliorer ses performances dans les applications du monde réel. Grâce à sa capacité à traiter les entrées structurées et non structurées, YOLOE ouvre de nouvelles possibilités pour la détection et la segmentation d'objets.
Voici quelques-unes des principales caractéristiques que le modèle apporte :
Détection basée sur les prompts : YOLOE peut rechercher des objets en fonction d'un court prompt textuel ou d'un exemple d'image. Cela signifie que vous n'avez pas besoin de réentraîner le modèle à chaque fois que votre tâche change ; décrivez ou montrez simplement au modèle ce que vous recherchez.
Segmentation d'instance: En plus de dessiner des boîtes englobantes autour des objets, YOLOE peut délimiter leur forme exacte en utilisant la segmentation d'instance. Ceci est particulièrement utile lorsque les objets se chevauchent ou lorsque vous avez besoin de connaître les limites précises d'un objet.
Reconnaissance d'objets sans prompt : YOLOE peut reconnaître des objets même sans instructions spécifiques. Il utilise un ensemble de descriptions pré-apprises pour identifier rapidement les objets, ce qui rend le processus plus rapide et plus efficace.
Comparaison de YOLOE avec d'autres modèles de YOLO
Maintenant que nous comprenons mieux ce qu'est YOLOE, examinons quelques modèles similaires de la famille YOLO .
Les modèles YOLO ont évolué au fur et à mesure que la vision par ordinateur progressait. Par exemple, Ultralytics YOLOv8 a pris en charge de nouvelles tâches telles que la segmentation et la classification, tandis que les versions ultérieures, comme Ultralytics YOLO11, se sont concentrées sur l'amélioration de la précision et des performances pour un plus grand nombre de tâches.
Par ailleurs, YOLO a été lancé en janvier 2024 et a introduit la possibilité d'utiliser des invites écrites, permettant aux utilisateurs de décrire les objets qu'ils souhaitent trouver. Bien que YOLO soit une excellente option pour la détection de l'absence d'objets, il lui manquait des fonctionnalités telles que la segmentation des instances et l'aide visuelle.
YOLOE s'appuie sur YOLO en ajoutant ces capacités, en améliorant la flexibilité et les performances, et en offrant un outil plus performant pour les applications de vision par ordinateur dans le monde réel.
Fig. 2. YOLO et YOLOE prennent tous deux en charge la détection de l'absence de tir.
Utilisation de YOLOE avec le paquetage Ultralytics Python
Que vous souhaitiez detect objets spécifiques ou explorer l'ensemble d'une image, il est facile de commencer à utiliser YOLOE. Ce modèle est pris en charge par le paquetagePython Ultralytics , ce qui facilite son intégration dans vos projets. Voyons maintenant comment l'utiliser.
Installation du paquet Ultralytics
La première étape consiste à installer le paquetageUltralytics Python à l'aide d'un gestionnaire de paquetage tel que "pip". Vous pouvez le faire en exécutant la commande "pip install ultralytics" dans votre terminal ou votre invite de commande.
Une fois le paquet installé, vous aurez tout ce qu'il faut pour charger le modèle, faire des prédictions et expérimenter différents modes de détection. Si vous rencontrez des problèmes lors de l'installation, la documentation officielle d'Ultralytics propose une section de dépannage utile.
Il existe différentes manières d'utiliser YOLOE pour exécuter des prédictions. L'exécution de prédictions signifie utiliser le modèle entraîné pour identifier et localiser des objets dans des images ou des vidéos. Ces différentes méthodes vous permettent de personnaliser votre interaction avec le modèle en fonction de vos besoins spécifiques.
Examinons chacune de ces méthodes, une par une.
Détection d'objets spécifiques avec des invites textuelles ou d'image
YOLOE peut detect objets à partir d'une courte description textuelle. Par exemple, si vous recherchez un cheval en mouvement, vous pouvez utiliser une invite telle que "cheval en train de marcher".
Pour commencer, chargez d'abord le modèle YOLOE pré-entraîné et définissez votre invite (la description de ce que vous voulez que le modèle recherche) comme indiqué dans l'extrait de code ci-dessous.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Une fois votre modèle et votre prompt définis, vous pouvez exécuter le modèle sur une image ou une vidéo. Remplacez le chemin du fichier dans le code par le chemin de votre fichier image ou vidéo :
Ceci affichera l'image avec l'objet détecté clairement marqué en fonction de votre invite. Vous pouvez modifier l'invite pour rechercher différents objets, tels que « valise rouge », « bicyclette » ou « zèbre », selon ce que vous recherchez.
Fig. 3. Exemple d'utilisation de YOLOE pour detect objets spécifiques à l'aide d'une invite textuelle.
De même, vous pouvez utiliser une image pour solliciter YOLOE à l'aide du logiciel Ultralytics Python . En mode d'incitation visuelle, le modèle utilise l'image pour trouver des éléments similaires dans une autre scène. Cette fonction est particulièrement utile pour les objets difficiles à décrire ou pour lesquels il n'existe pas d'étiquettes claires.
Dans certains cas, vous ne savez peut-être pas exactement ce que vous recherchez, ou vous ne recherchez pas un objet particulier. C'est là que le mode sans invite s'avère utile.
Avec cette option, vous n'avez pas besoin de saisir une description ni de fournir un exemple d'image. YOLOE analyse simplement les images par lui-même et détecte tout ce qu'il peut reconnaître, comme les personnes, les animaux, les meubles ou les objets du quotidien.
C'est un moyen utile d'explorer une scène sans donner d'instructions spécifiques au modèle. Que vous soyez en train de scanner une pièce bondée ou de revoir des séquences avec beaucoup d'activité, le mode sans invite vous donne un aperçu rapide de ce qui est présent dans une image.
Vous pouvez utiliser le code suivant pour exécuter YOLOE en mode sans invite. Tout d'abord, le modèle est chargé, puis il traite l'image et détecte automatiquement les objets qu'elle contient. Enfin, les résultats sont affichés et les objets détectés sont mis en évidence.
Veillez à remplacer le chemin d'accès au fichier par le chemin d'accès réel à votre image.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'image ci-dessous est un exemple de ce que YOLOE peut detect en mode libre.
Fig. 4. Utilisation de YOLOE en mode sans invite.
Applications en temps réel de YOLOE
La capacité de YOLOE à répondre aux invites textuelles et visuelles en fait un outil fiable pour les applications en temps réel. Sa flexibilité est particulièrement utile dans les environnements dynamiques où le timing et la précision sont essentiels.
Explorons quelques exemples concrets de l'utilisation de YOLOE.
Amélioration du traitement des bagages : détection des bagages en temps réel
Dans les aéroports très fréquentés, la localisation de bagages spécifiques peut être difficile, en particulier lorsqu'il s'agit de sacs manquants. YOLOE peut rationaliser ce processus en aidant à scanner des vidéos en direct et à identifier rapidement les articles en fonction d'invites simples comme « sac rouge ».
Si un sac est manquant ou égaré, le personnel peut facilement modifier l'invite pour rechercher un article différent, tel qu'une “valise noire.” Cette capacité d'adaptation instantanée peut aider le personnel de l'aéroport à localiser rapidement le bon bagage sans avoir à visionner de longues heures d'images ou à réentraîner le modèle, ce qui rend la manutention des bagages et la résolution des problèmes de bagages manquants beaucoup plus rapides et efficaces.
Surveillance des espaces publics avec YOLOE
Les séquences de surveillance des espaces publics, tels que les marchés et les cafés bondés, comprennent souvent un mélange de personnes, d'objets et d'activités qui changent tout au long de la journée. YOLOE peut analyser ces séquences en temps réel en utilisant le mode sans invite, en détectant automatiquement des éléments tels que des sacs, des tables ou des vélos sans avoir besoin d'instructions spécifiques.
Fig. 5. YOLOE peut detect divers objets dans un espace public très fréquenté.
Cette fonction est particulièrement utile aux équipes de sécurité pour repérer les objets laissés sans surveillance ou track mouvements de foule. La capacité de YOLOE à detect plusieurs objets à la fois facilite la gestion des espaces publics lors d'événements ou de périodes d'affluence, en aidant les équipes à rester informées et réactives.
Avantages et inconvénients de YOLOE
Voici quelques-uns des principaux avantages de l'utilisation de YOLOE pour les applications de vision par ordinateur :
Performance en temps réel : YOLOE est optimisé pour un traitement rapide et efficace, permettant une détection en temps réel, même dans des environnements dynamiques tels que les flux vidéo en direct ou les espaces publics très fréquentés.
Scalabilité : YOLOE est scalable et fonctionne bien pour une grande variété d'applications, de la sécurité et de la surveillance au commerce de détail, en passant par la santé et les véhicules autonomes.
Facile à utiliser: YOLOE étant supporté par le paquetagePython Ultralytics , il est facile à intégrer dans vos projets de vision par ordinateur existants.
Cependant, il existe quelques limitations à garder à l'esprit lors de l'utilisation de YOLOE. Voici quelques facteurs à prendre en compte :
Nécessite suffisamment de données d’entraînement : Bien que YOLOE prenne en charge la détection zero-shot, ses performances sur des objets non vus dépendent de sa capacité à généraliser à partir de ses données d’entraînement. Dans certains cas, il peut avoir besoin de données supplémentaires ou d’un réglage fin pour bien fonctionner dans des tâches très spécialisées.
Sensible à la qualité de l'entrée: La précision du modèle peut être affectée par des images ou des vidéos de mauvaise qualité. Des données floues ou mal éclairées peuvent réduire la capacité du modèle à detect objets avec précision. Il est donc important de disposer de données de haute qualité pour obtenir des performances optimales.
Principaux points à retenir
YOLOE apporte plus de flexibilité à la vision par ordinateur en permettant aux utilisateurs de guider la détection avec des invites textuelles ou visuelles. Il fonctionne bien dans des situations réelles où les scènes changent rapidement et où le réentraînement n'est pas une option.
De la manutention des bagages à la surveillance des espaces publics, YOLOE s'adapte facilement à de nouvelles tâches. À mesure que l'IA devient plus accessible, les modèles comme YOLOE aident de plus en plus d'industries à utiliser la technologie de vision de manière pratique et efficace.