En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Paramètres des cookies
En cliquant sur "Accepter tous les cookies", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser l'utilisation du site et de nous aider dans nos efforts de marketing. Plus d'informations
Découvrez comment YOLOE vous permet de trouver des objets à l'aide d'un simple message ou d'une photo. Il permet une vision par ordinateur plus intelligente et plus rapide sans avoir à réapprendre ou à affiner les modèles.
La détection d'objets est une tâche clé de la vision par ordinateur, dont l'objectif est d'identifier et de localiser des objets dans des images ou des vidéos. Il s'agit d'un élément essentiel de la vision artificielle, un domaine de l'intelligence artificielle (IA) qui permet aux machines de comprendre et d'interpréter les données visuelles. Par exemple, la détection d'objets permet d'identifier une voiture sur une photo ou de repérer une personne dans un flux vidéo.
La série de modèles YOLO (You Only Look Once) est l'une des séries de modèles les plus connues pour les tâches de vision artificielle telles que la détection d'objets. Conçus pour être rapides et précis, les modèles YOLO se sont continuellement améliorés au fil du temps. Par exemple, l'une des dernières versions, Ultralytics YOLO11, donne de bons résultats dans des situations réelles, même dans des environnements plus complexes.
Pour aller plus loin, un nouveau modèle appelé YOLOE vise à étendre les capacités des modèles YOLO. Contrairement aux modèles traditionnels qui nécessitent un réapprentissage pour reconnaître de nouveaux objets, YOLOE peut suivre un simple texte ou une image pour détecter des objets qu'il n'a jamais vus auparavant, ce qui le rend beaucoup plus adaptable à des environnements changeants.
Dans cet article, nous allons examiner de plus près ce qui rend YOLOE unique, comment il se compare aux modèles YOLO précédents et comment vous pouvez commencer à l'utiliser dès aujourd'hui. C'est parti !
Vue d'ensemble de YOLOE
YOLOE est un modèle de vision par ordinateur qui va plus loin dans la détection des objets. Il a été introduit en mars 2025 par des chercheurs de l'université de Tsinghua. YOLOE se distingue des modèles traditionnels par son utilisation de la détection de vocabulaire ouvert.
Alors que la plupart des modèles sont formés pour reconnaître une liste fixe d'objets, YOLOE vous permet de spécifier ce que vous recherchez à l'aide d'une courte description ou d'un exemple d'image. Par exemple, si vous recherchez un "sac à dos vert", vous pouvez soit saisir cette description, soit montrer une photo au modèle, et YOLOE le localisera dans la scène.
En outre, même sans aucune invite, YOLOE peut détecter seul de nombreux objets de la vie quotidienne. Cette capacité à reconnaître des objets qu'il n'a jamais vus auparavant s'appelle la détection "zero-shot". Elle est particulièrement utile dans les environnements dynamiques où la tâche ou les objets d'intérêt peuvent changer de manière inattendue.
YOLOE prend en charge un large éventail de fonctionnalités conçues pour améliorer ses performances dans les applications du monde réel. Grâce à sa capacité à traiter des données structurées et non structurées, YOLOE ouvre de nouvelles perspectives en matière de détection et de segmentation d'objets.
Voici quelques-unes des principales caractéristiques du modèle :
Détection basée sur une invite : YOLOE peut rechercher des objets à partir d'un texte court ou d'une image d'exemple. Cela signifie que vous n'avez pas besoin de réentraîner le modèle à chaque fois que votre tâche change ; il vous suffit de décrire ou de montrer au modèle ce que vous recherchez.
Segmentation de l'instance: En plus de dessiner des boîtes de délimitation autour des objets, YOLOE peut définir leur forme exacte à l'aide de la segmentation d'instance. Ceci est particulièrement utile lorsque les objets se chevauchent ou lorsque vous avez besoin de connaître les limites précises d'un objet.
Reconnaissance d'objets sans intervention : YOLOE peut reconnaître des objets même sans instructions spécifiques. Il utilise un ensemble de descriptions préapprises pour identifier rapidement les objets, ce qui rend le processus plus rapide et plus efficace.
Comparaison de YOLOE avec d'autres modèles de YOLO
Maintenant que nous comprenons mieux ce qu'est YOLOE, examinons quelques modèles similaires de la famille YOLO.
Les modèles YOLO ont évolué en même temps que la vision par ordinateur. Par exemple, Ultralytics YOLOv8 a pris en charge de nouvelles tâches telles que la segmentation et la classification, tandis que les versions ultérieures, comme Ultralytics YOLO11, se sont concentrées sur l'amélioration de la précision et des performances pour un plus grand nombre de tâches.
Par ailleurs, YOLO-World a été lancé en janvier 2024 et a introduit la possibilité d'utiliser des invites écrites, permettant aux utilisateurs de décrire les objets qu'ils souhaitent trouver. Bien que YOLO-World soit une excellente option pour la détection de l'absence d'objets, il lui manquait des fonctionnalités telles que la segmentation des instances et l'aide visuelle.
YOLOE s'appuie sur YOLO-World en ajoutant ces capacités, en améliorant la flexibilité et les performances, et en offrant un outil plus performant pour les applications de vision par ordinateur dans le monde réel.
Fig. 2. YOLO-World et YOLOE prennent tous deux en charge la détection de l'absence de tir.
Utilisation de YOLOE avec le paquetage Ultralytics Python
Que vous souhaitiez détecter des objets spécifiques ou explorer l'ensemble d'une image, il est facile de commencer à utiliser YOLOE. Ce modèle est pris en charge par le paquetage Python Ultralytics, ce qui facilite son intégration dans vos projets. Voyons maintenant comment l'utiliser.
Installation du paquet Ultralytics
La première étape consiste à installer le paquetage Ultralytics Python à l'aide d'un gestionnaire de paquetage tel que "pip". Vous pouvez le faire en lançant la commande "pip install ultralytics" dans votre terminal ou votre invite de commande.
Une fois le paquet installé, vous aurez tout ce qu'il faut pour charger le modèle, faire des prédictions et expérimenter différents modes de détection. Si vous rencontrez des problèmes lors de l'installation, la documentation officielle d'Ultralytics propose une section de dépannage utile.
Il existe plusieurs façons d'utiliser YOLOE pour effectuer des prédictions. L'exécution de prédictions consiste à utiliser le modèle entraîné pour identifier et localiser des objets dans des images ou des vidéos. Ces différentes méthodes vous permettent de personnaliser la façon dont vous interagissez avec le modèle en fonction de vos besoins spécifiques.
Examinons chacune de ces méthodes, l'une après l'autre.
Détection d'objets spécifiques à l'aide d'un texte ou d'une image
YOLOE peut détecter des objets à partir d'une courte description textuelle. Par exemple, si vous recherchez un cheval en mouvement, vous pouvez utiliser une invite telle que "cheval en train de marcher".
Pour commencer, chargez d'abord le modèle YOLOE pré-entraîné et définissez votre invite (la description de ce que vous voulez que le modèle recherche) comme indiqué dans l'extrait de code ci-dessous.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))
Une fois le modèle et l'invite définis, vous pouvez exécuter le modèle sur une image ou une vidéo. Remplacez le chemin d'accès au fichier dans le code par le chemin d'accès à votre fichier image ou vidéo :
L'image s'affiche alors avec l'objet détecté clairement indiqué en fonction de l'invite. Vous pouvez modifier l'invite pour rechercher différents objets, tels que "valise rouge", "vélo" ou "zèbre", en fonction de ce que vous recherchez.
Fig. 3. Exemple d'utilisation de YOLOE pour détecter des objets spécifiques à l'aide d'une invite textuelle.
De même, vous pouvez utiliser une image pour solliciter YOLOE à l'aide du logiciel Ultralytics Python. En mode d'incitation visuelle, le modèle utilise l'image pour trouver des éléments similaires dans une autre scène. Cette fonction est particulièrement utile pour les objets difficiles à décrire ou pour lesquels il n'existe pas d'étiquettes claires.
Dans certains cas, il se peut que vous ne sachiez pas exactement ce que vous devez rechercher ou que vous ne recherchiez pas un objet particulier. C'est là que le mode sans invite s'avère utile.
Avec cette option, vous n'avez pas besoin de taper une description ou de fournir une image d'exemple. YOLOE analyse simplement les images et détecte tout ce qu'il peut reconnaître, comme des personnes, des animaux, des meubles ou des objets de la vie quotidienne.
Il s'agit d'un moyen utile d'explorer une scène sans donner d'instructions spécifiques au modèle. Que vous balayiez une salle bondée ou que vous visionniez des séquences très animées, le mode sans invite vous permet de voir rapidement ce qui est présent dans une image.
Vous pouvez utiliser le code suivant pour exécuter YOLOE en mode sans invite. Le modèle est d'abord chargé, puis il traite l'image et détecte automatiquement les objets qu'elle contient. Enfin, les résultats sont affichés et les objets détectés sont mis en évidence.
Veillez à remplacer le chemin d'accès au fichier par le chemin d'accès réel à votre image.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()
L'image ci-dessous est un exemple de ce que YOLOE peut détecter en mode libre.
Fig. 4. Utilisation de YOLOE en mode libre.
Applications en temps réel de YOLOE
La capacité de YOLOE à répondre à des invites textuelles et visuelles en fait un outil fiable pour les applications en temps réel. Sa flexibilité est particulièrement utile dans les environnements en évolution rapide où le temps et la précision sont essentiels.
Examinons quelques exemples concrets de l'utilisation de YOLOE.
Améliorer le traitement des bagages : Détection des bagages en temps réel
Dans les aéroports très fréquentés, la localisation d'un bagage spécifique peut s'avérer difficile, en particulier lorsqu'il s'agit de bagages manquants. YOLOE peut rationaliser ce processus en aidant à scanner des vidéos en direct et en identifiant rapidement les articles à partir de simples invites comme "sac rouge".
Si un bagage est manquant ou égaré, le personnel peut facilement modifier l'invite pour rechercher un autre article, par exemple une "valise noire". Cette capacité d'adaptation instantanée peut aider le personnel de l'aéroport à localiser rapidement le bon bagage sans avoir à visionner de longues heures d'images ou à réapprendre le modèle, ce qui rend la manutention des bagages et la résolution des problèmes liés aux bagages manquants beaucoup plus rapides et efficaces.
Surveiller les espaces publics avec YOLOE
Les images de surveillance des espaces publics, tels que les marchés et les cafés bondés, comprennent souvent un mélange de personnes, d'objets et d'activités qui changent tout au long de la journée. YOLOE peut analyser ces séquences en temps réel en utilisant le mode "prompt-free", détectant automatiquement des objets tels que des sacs, des tables ou des bicyclettes sans avoir besoin d'instructions spécifiques.
Fig. 5. YOLOE peut détecter divers objets dans un espace public très fréquenté.
Cette fonction est particulièrement utile aux équipes de sécurité pour repérer les objets laissés sans surveillance ou suivre les mouvements de foule. La capacité de YOLOE à détecter plusieurs objets à la fois facilite la gestion des espaces publics lors d'événements ou de périodes d'affluence, en aidant les équipes à rester informées et réactives.
Avantages et inconvénients de YOLOE
Voici quelques-uns des principaux avantages de l'utilisation de YOLOE pour les applications de vision par ordinateur :
Performance en temps réel: YOLOE est optimisé pour un traitement rapide et efficace, permettant une détection en temps réel, même dans des environnements dynamiques tels que les flux vidéo en direct ou les espaces publics animés.
Évolutivité: YOLOE est évolutif et fonctionne bien pour une grande variété d'applications, de la sécurité et de la surveillance à la vente au détail, aux soins de santé et aux véhicules autonomes.
Facile à utiliser: YOLOE étant supporté par le package Python Ultralytics, il est facile à intégrer dans vos projets de vision artificielle existants.
Cependant, il y a quelques limitations à garder à l'esprit lors de l'utilisation de YOLOE. Voici quelques facteurs à prendre en compte :
Nécessite des données d'entraînement suffisantes: Bien que YOLOE prenne en charge la détection zéro-coup, ses performances sur des objets non vus dépendent de sa capacité à généraliser à partir de ses données d'apprentissage. Dans certains cas, il peut avoir besoin de données supplémentaires ou d'un réglage fin pour être performant dans des tâches très spécialisées.
Sensible à la qualité de l'entrée: La précision du modèle peut être affectée par des images ou des vidéos de mauvaise qualité. Des données floues ou mal éclairées peuvent réduire la capacité du modèle à détecter des objets avec précision. Il est donc important de disposer de données de haute qualité pour obtenir des performances optimales.
Principaux enseignements
YOLOE apporte plus de souplesse à la vision par ordinateur en permettant aux utilisateurs de guider la détection à l'aide de textes ou d'images. Il fonctionne bien dans les situations réelles où les scènes changent rapidement et où le réapprentissage n'est pas envisageable.
De la manutention des bagages à la surveillance des espaces publics, YOLOE s'adapte facilement à de nouvelles tâches. Alors que l'IA devient de plus en plus accessible, des modèles comme YOLOE aident de plus en plus d'industries à utiliser la technologie de la vision de manière pratique et efficace.