Qu'est-ce que YOLOE ? Aller plus loin avec les modèles de vision par ordinateur
Apprends comment YOLOE te permet de trouver des objets à l'aide d'une simple requête ou photo. Il permet une vision par ordinateur plus intelligente et plus rapide sans avoir besoin de réentraîner ou d'ajuster les modèles.

La détection d'objets est une tâche clé de la vision par ordinateur, dont l'objectif est d'identifier et de localiser des objets dans des images ou des vidéos. Il s'agit d'une partie cruciale de la vision par ordinateur, un domaine de l'intelligence artificielle (IA) qui permet aux machines de comprendre et d'interpréter les données visuelles. Par exemple, la détection d'objets peut aider à identifier une voiture sur une photo ou à repérer une personne dans un flux vidéo.
L'une des séries de modèles les plus connues prenant en charge les tâches de vision par ordinateur comme la détection d'objets est la série de modèles YOLO (You Only Look Once). Conçus pour la vitesse et la précision, les modèles YOLO se sont continuellement améliorés au fil du temps. Par exemple, l'une des versions les plus récentes, Ultralytics YOLO11, fonctionne bien dans des situations réelles, fournissant des résultats précis même dans des environnements complexes.
Pour aller encore plus loin dans cette progression, un nouveau modèle appelé YOLOE vise à étendre les capacités des modèles YOLO. Contrairement aux modèles traditionnels qui nécessitent un réentraînement pour reconnaître de nouveaux objets, YOLOE peut suivre de simples invites textuelles ou visuelles pour détecter des objets qu'il n'a jamais vus auparavant, ce qui le rend beaucoup plus adaptable aux environnements changeants.
Dans cet article, nous examinerons de plus près ce qui rend YOLOE unique, comment il se compare aux modèles YOLO précédents et comment tu peux commencer à l'utiliser dès aujourd'hui. Commençons !
Link to this sectionUn aperçu de YOLOE#
YOLOE est un modèle de vision par ordinateur qui pousse la détection d'objets un peu plus loin. Il a été présenté en mars 2025 par des chercheurs de l'université Tsinghua. Ce qui distingue YOLOE des modèles traditionnels, c'est son utilisation de la détection à vocabulaire ouvert (open-vocabulary).
Alors que la plupart des modèles sont entraînés pour reconnaître une liste fixe d'objets, YOLOE te permet de spécifier ce qu'il doit chercher à l'aide d'une courte description ou d'une image d'exemple. Par exemple, si tu cherches un « sac à dos vert », tu peux soit taper cette description, soit montrer une photo au modèle, et YOLOE le localisera dans la scène.
De plus, même sans aucune consigne, YOLOE peut détecter de nombreux objets du quotidien de manière autonome. Cette capacité à reconnaître des objets jamais vus auparavant est appelée détection zero-shot. Elle est particulièrement utile dans les environnements dynamiques où la tâche ou les objets d'intérêt peuvent changer de manière inattendue.

Fig 1. Un aperçu des capacités de YOLOE.
Link to this sectionFonctionnalités clés de YOLOE#
YOLOE prend en charge un large éventail de fonctionnalités conçues pour améliorer ses performances dans les applications réelles. Grâce à sa capacité à gérer des entrées structurées et non structurées, YOLOE ouvre de nouvelles possibilités pour la détection et la segmentation d'objets.
Voici quelques-unes des fonctionnalités clés que le modèle propose :
- Détection basée sur des invites (prompts) : YOLOE peut rechercher des objets en fonction d'une courte invite textuelle ou d'une image d'exemple. Cela signifie que tu n'as pas besoin de réentraîner le modèle à chaque fois que ta tâche change ; il suffit de décrire ou de montrer au modèle ce que tu cherches.
- Segmentation d'instance : en plus de dessiner des boîtes englobantes autour des objets, YOLOE peut délimiter leur forme exacte grâce à la segmentation d'instance. C'est particulièrement utile lorsque les objets se chevauchent ou lorsque tu as besoin de connaître les limites précises d'un objet.
- Reconnaissance d'objets sans invite : YOLOE peut reconnaître des objets même sans instructions spécifiques. Il utilise un ensemble de descriptions pré-apprises pour identifier rapidement les objets, rendant le processus plus rapide et plus efficace.
Link to this sectionComparaison de YOLOE avec d'autres modèles YOLO#
Maintenant que nous avons une meilleure compréhension de ce qu'est YOLOE, jetons un œil à certains des modèles de la famille YOLO qui sont similaires.
À mesure que la vision par ordinateur a progressé, les modèles YOLO ont suivi le mouvement. Par exemple, Ultralytics YOLOv8 a apporté la prise en charge de nouvelles tâches comme la segmentation et la classification, tandis que les versions ultérieures, comme Ultralytics YOLO11, se sont concentrées sur l'amélioration de la précision et des performances pour un plus large éventail de tâches.
Par ailleurs, YOLO-World a été lancé en janvier 2024 et a introduit la possibilité d'utiliser des invites écrites, permettant aux utilisateurs de décrire les objets qu'ils souhaitent trouver. Bien que YOLO-World ait été une excellente option pour la détection zero-shot, il lui manquait des fonctionnalités comme la segmentation d'instance et la prise en charge des invites visuelles.
YOLOE s'appuie sur YOLO-World en ajoutant ces capacités, améliorant ainsi la flexibilité et les performances, et offrant un outil plus percutant pour les applications réelles de vision par ordinateur.

Fig 2. YOLO-World et YOLOE prennent tous deux en charge la détection zero-shot.
Link to this sectionUtilisation de YOLOE avec le package Python Ultralytics#
Que tu veuilles détecter des objets spécifiques ou explorer tout ce qui se trouve dans une image, il est simple de commencer avec YOLOE. Ce modèle est pris en charge par le package Python Ultralytics, ce qui facilite son intégration dans tes projets. Ensuite, voyons comment l'utiliser.
Link to this sectionInstallation du package Ultralytics#
La première étape consiste à installer le package Python Ultralytics à l'aide d'un gestionnaire de paquets tel que « pip ». Tu peux le faire en exécutant la commande « pip install ultralytics » dans ton terminal ou ton invite de commande.
Une fois le package installé, tu auras tout ce qu'il te faut pour charger le modèle, effectuer des prédictions et expérimenter différents modes de détection. Si tu rencontres des problèmes lors de l'installation, la documentation officielle d'Ultralytics propose une section de dépannage très utile.
Il existe plusieurs façons d'utiliser YOLOE pour exécuter des prédictions. L'exécution de prédictions consiste à utiliser le modèle entraîné pour identifier et localiser des objets dans des images ou des vidéos. Ces différentes méthodes te permettent de personnaliser la façon dont tu interagis avec le modèle en fonction de tes besoins spécifiques.
Discutons de chacune de ces méthodes, une par une.
Link to this sectionDétection d'objets spécifiques avec des invites textuelles ou visuelles#
YOLOE peut détecter des objets en fonction d'une courte description textuelle. Par exemple, si tu cherches un cheval en mouvement, tu peux utiliser une invite comme « horse walking ».
Pour commencer, charge d'abord le modèle YOLOE pré-entraîné et définis ton invite (la description de ce que tu veux que le modèle cherche) comme indiqué dans l'extrait de code ci-dessous.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg.pt")
prompt = ["horse walking"]
model.set_classes(prompt, model.get_text_pe(prompt))Une fois ton modèle et ton invite configurés, tu peux exécuter le modèle sur une image ou une vidéo. Remplace le chemin d'accès au fichier dans le code par le chemin d'accès à ton propre fichier image ou vidéo :
results = model.predict("path/to/your/image.jpg")
results[0].show()Cela affichera l'image avec l'objet détecté clairement marqué en fonction de ton invite. Tu peux modifier l'invite pour rechercher différents objets, comme « red suitcase », « bicycle » ou « zebra », selon ce que tu recherches.

Fig 3. Un exemple d'utilisation de YOLOE pour détecter des objets spécifiques à l'aide d'une invite textuelle.
De même, tu peux utiliser une image pour solliciter YOLOE avec le package Python Ultralytics. En mode d'invite visuelle, le modèle utilise l'image pour trouver des éléments similaires dans une autre scène. C'est particulièrement utile pour les objets difficiles à décrire ou qui manquent d'étiquettes claires.
Pour explorer le code correspondant plus en détail, tu peux consulter la documentation Ultralytics.
Link to this sectionDétection d'objets générale utilisant YOLOE#
Dans certains cas, tu pourrais ne pas savoir exactement quoi chercher, ou tu pourrais ne pas chercher d'objet particulier. C'est là que le mode sans invite s'avère pratique.
Avec cette option, tu n'as pas besoin de taper une description ou de fournir une image d'exemple. YOLOE analyse simplement les images par lui-même et détecte tout ce qu'il peut reconnaître, comme des personnes, des animaux, des meubles ou des objets du quotidien.
C'est un moyen utile d'explorer une scène sans donner aucune instruction spécifique au modèle. Que tu scannes une pièce bondée ou que tu passes en revue des images avec beaucoup d'activité, le mode sans invite te donne un aperçu rapide de ce qui est présent dans une image.
Tu peux utiliser le code suivant pour exécuter YOLOE en mode sans invite. D'abord, le modèle est chargé, puis il traite l'image et détecte automatiquement les objets qui s'y trouvent. Enfin, les résultats sont affichés et les objets détectés sont mis en évidence.
Assure-toi de remplacer le chemin d'accès au fichier par le chemin réel vers ton image.
from ultralytics import YOLOE
model = YOLOE("yoloe-11l-seg-pf.pt")
results = model.predict("path/to/image.jpg")
results[0].show()L'image ci-dessous est un exemple de ce que YOLOE peut détecter en mode sans invite.

Fig 4. Utilisation de YOLOE en mode sans invite.
Link to this sectionApplications en temps réel de YOLOE#
La capacité de YOLOE à répondre à la fois à des invites textuelles et visuelles en fait un outil fiable pour les applications en temps réel. Sa flexibilité est particulièrement utile dans les environnements rapides où le timing et la précision sont essentiels.
Explorons quelques exemples concrets de la façon dont YOLOE peut être utilisé.
Link to this sectionAmélioration de la gestion des bagages : détection de bagages en temps réel#
Dans les aéroports fréquentés, localiser des bagages spécifiques peut être difficile, surtout en cas de perte de bagages. YOLOE peut rationaliser ce processus en aidant à scanner les vidéos en direct et en identifiant rapidement les articles sur la base d'invites simples comme « red bag ».
Si un sac est manquant ou égaré, le personnel peut facilement modifier l'invite pour rechercher un autre article, tel qu'une « black suitcase ». Cette capacité à s'adapter instantanément peut aider le personnel de l'aéroport à localiser rapidement les bons bagages sans avoir à revoir des heures de séquences vidéo ou à réentraîner le modèle, rendant la gestion des bagages et la résolution des problèmes de bagages perdus beaucoup plus rapides et efficaces.
Link to this sectionSurveillance des espaces publics avec YOLOE#
Les séquences de surveillance des espaces publics, comme les marchés et les cafés bondés, incluent souvent un mélange de personnes, d'objets et d'activités qui changent tout au long de la journée. YOLOE peut analyser ces séquences en temps réel en utilisant le mode sans invite, détectant automatiquement des éléments comme des sacs, des tables ou des vélos sans avoir besoin d'instructions spécifiques.

Fig 5. YOLOE peut détecter divers objets dans un espace public bondé.
Ceci est particulièrement utile pour les équipes de sécurité afin de repérer les objets abandonnés ou de suivre les mouvements de foule. La capacité de YOLOE à détecter plusieurs objets à la fois facilite la gestion des espaces publics lors d'événements ou de périodes d'affluence, aidant les équipes à rester informées et réactives.
Link to this sectionAvantages et inconvénients de YOLOE#
Voici quelques-uns des avantages clés de l'utilisation de YOLOE pour les applications de vision par ordinateur :
- Performances en temps réel : YOLOE est optimisé pour un traitement rapide et efficace, permettant une détection en temps réel, même dans des environnements dynamiques comme les flux vidéo en direct ou les espaces publics bondés.
- Évolutivité : YOLOE est évolutif et fonctionne bien pour une grande variété d'applications, de la sécurité et la surveillance au commerce de détail, à la santé et aux véhicules autonomes.
- Facile à utiliser : comme YOLOE est pris en charge par le package Python Ultralytics, il est facile à intégrer dans tes projets de vision par ordinateur existants.
Cependant, il y a quelques limitations à garder à l'esprit lors de l'utilisation de YOLOE. Voici quelques facteurs à prendre en compte :
- Nécessite des données d'entraînement suffisantes : bien que YOLOE prenne en charge la détection zero-shot, ses performances sur des objets inconnus dépendent de la manière dont il généralise à partir de ses données d'entraînement. Dans certains cas, il peut avoir besoin de données supplémentaires ou d'un ajustement fin (fine-tuning) pour bien fonctionner sur des tâches hautement spécialisées.
- Sensible à la qualité des entrées : la précision du modèle peut être affectée par des images ou des vidéos de faible qualité. Des entrées floues ou mal éclairées peuvent réduire la capacité du modèle à détecter avec précision les objets ; des entrées de haute qualité sont donc importantes pour des performances optimales.
Link to this sectionPoints clés#
YOLOE apporte plus de flexibilité à la vision par ordinateur en permettant aux utilisateurs de guider la détection avec des invites textuelles ou visuelles. Il fonctionne bien dans des situations réelles où les scènes changent rapidement et où le réentraînement n'est pas une option.
De la gestion des bagages à la surveillance des espaces publics, YOLOE s'adapte facilement à de nouvelles tâches. À mesure que l'IA devient plus accessible, des modèles comme YOLOE aident davantage d'industries à utiliser la technologie de vision de manière pratique et efficace.
Rejoins notre communauté et explore notre dépôt GitHub pour en savoir plus sur les innovations en matière d'IA. Découvre les dernières avancées dans des domaines comme l'IA dans le commerce de détail et la vision par ordinateur dans la santé sur nos pages de solutions. Consulte nos options de licence et commence avec la vision par ordinateur dès aujourd'hui !






