Glossaire

Détecteurs d'objets à deux niveaux

Découvrez la puissance des détecteurs d'objets à deux niveaux - des solutions axées sur la précision pour la détection précise d'objets dans des tâches complexes de vision par ordinateur.

Les détecteurs d'objets en deux étapes représentent une classe d'architectures de détection d'objets connues pour leur grande précision, en particulier dans les scènes complexes. Contrairement à leurs homologues, ces détecteurs décomposent la tâche de détection d'objets en deux étapes distinctes : premièrement, l'identification des régions potentielles d'une image susceptibles de contenir des objets (proposition de région) et, deuxièmement, la classification des objets dans ces régions proposées et l'affinement de leur emplacement à l'aide de boîtes englobantes. Cette approche méthodique permet une analyse détaillée, mais se fait souvent au détriment de la vitesse de calcul par rapport à d'autres méthodes. Ces modèles constituent la pierre angulaire de l'évolution de la vision par ordinateur (VA).

Fonctionnement des détecteurs à deux niveaux

Le fonctionnement d'un détecteur en deux étapes implique un pipeline séquentiel, qui s'appuie généralement sur des réseaux neuronaux profonds ( RN), en particulier des réseaux neuronaux convolutifs (CNN), pour l'extraction des caractéristiques.

  1. Étape 1 : Proposition de régions : La première étape vise à générer un ensemble gérable de régions candidates (régions d'intérêt ou RdI) où les objets sont susceptibles de se trouver. Les premiers modèles comme le R-CNN utilisaient des méthodes externes telles que la recherche sélective, tandis que les progrès ultérieurs, notamment l'architecture Faster R-CNN, ont intégré cette étape dans le réseau neuronal lui-même à l'aide d'un réseau de proposition de régions (RPN). Le RPN analyse efficacement les cartes de caractéristiques produites par le réseau dorsal et prédit l'emplacement et la taille des objets potentiels.
  2. Étape 2 : Classification et affinement : Les régions proposées lors de la première étape sont ensuite transmises à la deuxième étape. Pour chaque RdI, des caractéristiques sont extraites de la carte de caractéristiques partagée (en utilisant des techniques telles que RoIPooling ou RoIAlign pour gérer les différentes tailles de région). Ces caractéristiques alimentent une tête de détection qui effectue deux tâches : classer l'objet dans la RdI (par exemple, "voiture", "personne", "arrière-plan") et affiner les coordonnées de la boîte englobante pour qu'elle corresponde plus précisément à l'objet.

Caractéristiques principales

Les détecteurs à deux étages sont principalement caractérisés par :

  • Précision élevée : La séparation de la génération de propositions et de la classification/affinement permet à la deuxième étape de concentrer ses ressources sur un ensemble plus restreint de régions prometteuses, ce qui se traduit souvent par une plus grande précision de la localisation et de la classification. Ces méthodes ont tendance à donner de bons résultats sur les petits objets et dans les scènes encombrées. Les performances sont souvent mesurées à l'aide de paramètres tels que la précision moyenne (mAP) et l'intersection sur l'union (IoU).
  • Vitesse d'inférence plus lente : Le traitement de l'image en deux étapes distinctes, en particulier avec les frais généraux liés à la génération et au traitement individuel de nombreuses propositions de régions, rend ces détecteurs plus intensifs en termes de calcul et généralement plus lents que les détecteurs d'objets en une seule étape. Cela peut limiter leur utilisation dans les applications nécessitant une inférence en temps réel.

Comparaison avec les détecteurs à un étage

La principale distinction réside dans le pipeline opérationnel. Les détecteurs à une étape, tels que la famille YOLO d'Ultralytics (y compris des modèles comme YOLO11 et YOLOv8) et SSD (Single Shot MultiBox Detector), prédisent directement les boîtes englobantes et les probabilités de classe à partir de l'image complète en un seul passage dans le réseau. Ils traitent la détection d'objets comme un problème de régression. Cette approche unifiée offre des avantages considérables en termes de rapidité, ce qui les rend adaptés aux applications en temps réel. Cependant, ils ont toujours eu des difficultés à égaler la précision des détecteurs en deux étapes, en particulier pour les petits objets, bien que cet écart se soit considérablement réduit grâce aux progrès modernes. Pour plus de détails, vous pouvez consulter les comparaisons entre les différents modèles de détection d'objets.

Architectures remarquables

L'évolution des détecteurs à deux étages comprend plusieurs modèles influents :

  • R-CNN (régions avec caractéristiques CNN) : Le travail de pionnier qui combinait les propositions de régions avec les caractéristiques CNN, mais qui était lent en raison du traitement indépendant de chaque région.
  • R-CNN rapide : Amélioration de la vitesse en partageant le calcul entre les propositions à l'aide du RoIPooling sur une carte de caractéristiques convolutives partagée.(Article sur le R-CNN rapide)
  • R-CNN plus rapide : Vitesse et élégance accrues grâce à l'intégration de l'étape de proposition de région dans le réseau par l'intermédiaire de l'IPR, créant ainsi un système formable presque de bout en bout.
  • Masque R-CNN : Extended Faster R-CNN to perform instance segmentation by adding a branch to predict segmentation masks for each detected object (Extended Faster R-CNN to perform instance segmentation by adding a branch to predict segmentation masks for each detected object).(Article sur le R-CNN à masque)

Applications dans le monde réel

La grande précision des détecteurs à deux étages les rend précieux dans les scénarios où la précision est primordiale :

  • Analyse d'images médicales : La détection d'anomalies subtiles telles que de petites tumeurs, des lésions ou des polypes dans les scanners médicaux (CT, IRM) nécessite une grande précision pour faciliter le diagnostic. Une localisation précise est essentielle pour la planification du traitement. En savoir plus sur l'IA dans les soins de santé et la recherche dans des revues telles que Radiology : Artificial Intelligence. Vous pouvez explorer des ensembles de données tels que l'ensemble de données sur les tumeurs cérébrales pour des tâches connexes.
  • Conduite autonome : La détection et la localisation précises des piétons, des cyclistes, des autres véhicules et des panneaux de signalisation, en particulier ceux qui sont petits ou partiellement occultés, sont essentielles pour les systèmes de sécurité des voitures autonomes. Des entreprises comme Waymo s'appuient fortement sur des systèmes de perception robustes.
  • Compréhension détaillée de la scène : Les applications nécessitant une compréhension fine des interactions entre les objets ou un comptage précis bénéficient d'une plus grande précision.
  • Contrôle de la qualité dans la fabrication : L'identification de petits défauts ou la vérification de l'emplacement des composants dans des assemblages complexes exigent souvent une grande précision. En savoir plus sur l'IA dans la fabrication.

La formation de ces modèles implique généralement de grands ensembles de données étiquetées, tels que l'ensemble de données COCO, et une mise au point minutieuse. Ultralytics fournit des ressources pour l'entraînement des modèles et la compréhension des mesures de performance. Bien qu'Ultralytics se concentre sur les modèles efficaces à une étape comme Ultralytics YOLO, la compréhension des détecteurs à deux étapes fournit un contexte précieux dans le domaine plus large de la détection d'objets.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers