Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Détecteurs d'objets à étape unique

Découvrez la vitesse et l'efficacité des détecteurs d'objets à étape unique comme YOLO, idéaux pour les applications en temps réel telles que la robotique et la surveillance.

Les détecteurs d'objets à une étape sont une classe de modèles d'apprentissage profond conçus pour la vitesse et l'efficacité dans la vision par ordinateur. Ils effectuent la localisation et la classification des objets en une seule passe unifiée du réseau neuronal. Cela contraste avec leurs homologues plus complexes, les détecteurs d'objets à deux étapes, qui divisent la tâche en deux étapes distinctes. En traitant la détection d'objets comme un problème de régression simple, les modèles à une étape prédisent les boîtes englobantes et les probabilités de classe directement à partir des caractéristiques de l'image, ce qui les rend exceptionnellement rapides et adaptés aux applications nécessitant une inférence en temps réel.

Fonctionnement des détecteurs en une étape

Un détecteur à une étape traite une image entière en une seule fois via un seul réseau neuronal convolutif (CNN). L'architecture du réseau est conçue pour effectuer plusieurs tâches simultanément. Tout d'abord, le backbone du réseau effectue l'extraction de caractéristiques, créant des représentations riches de l'image d'entrée à différentes échelles. Ces caractéristiques sont ensuite introduites dans une tête de détection spécialisée.

Cette tête est responsable de la prédiction d'un ensemble de boîtes englobantes, d'un score de confiance pour chaque boîte indiquant la présence d'un objet, et de la probabilité que chaque objet appartienne à une classe spécifique. L'ensemble de ce processus se déroule en une seule passe avant, ce qui est la clé de leur grande vitesse. Des techniques telles que la suppression non maximale (NMS) sont ensuite utilisées pour filtrer les détections redondantes et chevauchantes afin de produire la sortie finale. Les modèles sont entraînés à l'aide d'une fonction de perte spécialisée qui combine la perte de localisation (la précision de la boîte englobante) et la perte de classification (la précision de la prédiction de classe).

Comparaison avec les détecteurs d'objets à deux étapes

La principale distinction réside dans la méthodologie. Les détecteurs en une étape sont conçus pour la vitesse et la simplicité, tandis que les détecteurs en deux étapes privilégient la précision, bien que cette distinction s'estompe avec les modèles plus récents.

  • Détecteurs en une étape : Ces modèles, tels que la famille YOLO (You Only Look Once), effectuent la détection en une seule étape. Ils sont généralement plus rapides et ont une architecture plus simple, ce qui les rend idéaux pour les appareils edge et les applications en temps réel. Le développement de détecteurs sans ancrage a encore amélioré leurs performances et leur simplicité.
  • Détecteurs d'objets en deux étapes : Les modèles comme la série R-CNN et ses variantes plus rapides génèrent d'abord un ensemble clairsemé de propositions de régions où des objets pourraient être situés. Dans la deuxième étape, un réseau distinct classifie ces propositions et affine les coordonnées de la boîte englobante. Ce processus en deux étapes donne généralement une plus grande précision, en particulier pour les petits objets, mais au prix d'une vitesse d'inférence considérablement plus lente. Mask R-CNN est un exemple bien connu qui étend cette approche à la segmentation d'instance.

Architectures et modèles clés

Plusieurs architectures one-stage influentes ont été développées, chacune avec des contributions uniques :

  • YOLO (You Only Look Once) : Introduit dans un article révolutionnaire de 2015, YOLO a défini la détection d'objets comme un problème de régression unique. Les versions ultérieures, y compris YOLOv8 et le Ultralytics YOLO11 à la pointe de la technologie, ont continuellement amélioré l'équilibre entre la vitesse et la précision.
  • Single Shot MultiBox Detector (SSD) : L'architecture SSD a été un autre modèle pionnier en une seule étape qui utilise des cartes de caractéristiques multi-échelles pour détecter des objets de différentes tailles, améliorant ainsi la précision par rapport au YOLO original.
  • RetinaNet : Ce modèle a introduit la Focal Loss, une fonction de perte novatrice conçue pour résoudre le déséquilibre extrême des classes rencontré lors de l'entraînement de détecteurs denses, lui permettant de surpasser la précision de nombreux détecteurs à deux étapes à l'époque.
  • EfficientDet : Une famille de modèles développés par Google Research qui se concentre sur l'évolutivité et l'efficacité en utilisant une méthode de mise à l'échelle composée et un nouveau réseau de caractéristiques BiFPN. Vous pouvez voir comment il se compare à d'autres modèles comme YOLO11 vs. EfficientDet.

Applications concrètes

La rapidité et l'efficacité des détecteurs "one-stage" les ont rendus indispensables dans de nombreuses applications basées sur l'IA :

  1. Véhicules autonomes : Dans l'IA pour les voitures autonomes, les détecteurs à une étape sont essentiels pour percevoir l'environnement en temps réel. Ils peuvent identifier et suivre instantanément les piétons, les cyclistes, les autres véhicules et les panneaux de signalisation, ce qui permet au système de navigation du véhicule de prendre des décisions critiques en une fraction de seconde. Des entreprises comme Tesla utilisent des principes similaires pour leurs systèmes Autopilot.
  2. Sécurité et surveillance intelligentes : Les modèles en une étape alimentent les systèmes de sécurité modernes en analysant les flux vidéo pour détecter les menaces telles que les entrées non autorisées ou les activités suspectes. Par exemple, un système peut être entraîné à compter les personnes dans une file d'attente pour la gestion des files d'attente ou à identifier les bagages abandonnés dans un aéroport, le tout en temps réel.

Avantages et limites

L'avantage principal des détecteurs à une étape est leur incroyable vitesse, qui permet la détection d'objets en temps réel sur une variété de matériels, y compris les appareils Edge AI à faible consommation d'énergie comme le NVIDIA Jetson ou le Raspberry Pi. Leur architecture plus simple, de bout en bout, les rend également plus faciles à entraîner et à déployer à l'aide de frameworks comme PyTorch ou TensorFlow.

Historiquement, la principale limitation a été une précision plus faible par rapport aux détecteurs en deux étapes, en particulier lorsqu'il s'agit d'objets très petits ou fortement occlus. Cependant, les récentes avancées dans l'architecture des modèles et les techniques d'entraînement, comme on le voit dans les modèles tels que YOLO11, ont considérablement réduit cet écart de performance, offrant une combinaison puissante de vitesse et de haute précision pour un large éventail de tâches de vision par ordinateur. Les plateformes comme Ultralytics HUB simplifient davantage le processus d'entraînement de modèles personnalisés pour des besoins spécifiques.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers