Glossaire

Détecteurs d'objets à deux niveaux

Découvrez la puissance des détecteurs d'objets à deux niveaux - des solutions axées sur la précision pour la détection précise d'objets dans des tâches complexes de vision par ordinateur.

Les détecteurs d'objets en deux étapes sont une classe de modèles de vision par ordinateur qui identifient et localisent des objets dans une image ou une vidéo par un processus séquentiel en deux étapes. Cette méthodologie est connue pour sa grande précision, notamment en ce qui concerne la localisation précise des objets, bien qu'elle s'accompagne souvent d'une latence d'inférence plus élevée. L'idée fondamentale est d'identifier d'abord les zones d'intérêt potentielles, puis d'effectuer une classification et une localisation détaillées uniquement sur ces régions prometteuses.

Le processus en deux étapes

Le fonctionnement d'un détecteur à deux étages est divisé en phases distinctes et séquentielles :

  1. Génération de propositions de régions : Au cours de la première étape, le modèle analyse l'image pour générer un ensemble de régions candidates, appelées "régions d'intérêt" (RdI) ou propositions, susceptibles de contenir un objet. Cette opération est généralement réalisée par un sous-module appelé réseau de propositions de régions (RPN), tel qu'il a été introduit dans l'architecture R-CNN plus rapide. L'objectif de cette étape n'est pas de classer les objets, mais simplement de réduire le nombre d'emplacements que la deuxième étape doit analyser.

  2. Classification des objets et affinement de la boîte de délimitation : Au cours de la deuxième étape, chaque région proposée est transmise à une tête de classification et à une tête de régression. La tête de classification détermine la classe de l'objet dans la RdI (par exemple, "personne", "voiture", "chien") ou le désigne comme arrière-plan. Simultanément, la tête de régression affine les coordonnées de la boîte englobante afin de l'adapter plus précisément à l'objet. Cette analyse ciblée de régions présélectionnées permet au modèle d'atteindre une grande précision de localisation.

Détecteurs à deux niveaux et détecteurs à un niveau

La principale distinction réside dans leur pipeline opérationnel. Les détecteurs à deux étapes séparent les tâches de localisation et de classification, tandis que les détecteurs d'objets à une étape effectuent les deux tâches simultanément en un seul passage.

  • Détecteurs à deux niveaux (par exemple, famille R-CNN) : Priorité à la précision. Le processus en deux étapes permet une extraction plus détaillée des caractéristiques et un affinement pour chaque objet potentiel, ce qui permet d'obtenir de meilleures performances sur des scènes complexes comportant de nombreux petits objets ou des objets qui se chevauchent. Toutefois, leur complexité les rend très gourmands en ressources informatiques et plus lents.
  • Détecteurs à un étage (par exemple, Ultralytics YOLO, SSD) : Priorité à la vitesse et à l'efficacité. En traitant la détection d'objets comme un seul problème de régression, ils atteignent des vitesses d'inférence en temps réel adaptées aux applications sur les dispositifs d'IA périphériques. Bien que les modèles modernes à une étape comme YOLO11 aient considérablement réduit l'écart de précision, les détecteurs à deux étapes peuvent encore être préférés pour les tâches exigeant la plus grande précision possible.

Architectures éminentes

L'évolution des détecteurs à deux étages a été marquée par plusieurs modèles influents :

  • R-CNN (réseau neuronal convolutionnel basé sur les régions) : Le modèle pionnier qui a proposé pour la première fois d'utiliser des propositions de régions avec un réseau neuronal convolutionnel (CNN). Il utilise un algorithme externe appelé Selective Search (recherche sélective) pour générer des propositions.
  • R-CNN rapide : Une amélioration qui traite l'ensemble de l'image par le biais d'un CNN en une seule fois, ce qui permet de partager les calculs et d'accélérer considérablement le processus.
  • R-CNN plus rapide : Introduction du réseau de proposition de régions (RPN), intégrant le mécanisme de proposition de régions dans le réseau neuronal lui-même pour une solution d'apprentissage en profondeur de bout en bout.
  • R-CNN à masque: Étend le R-CNN plus rapide en ajoutant une troisième branche qui produit un masque au niveau du pixel pour chaque objet, ce qui permet la segmentation des instances.

Applications dans le monde réel

La grande précision des détecteurs à deux étages les rend précieux dans les scénarios où la précision est primordiale :

  • Analyse d'images médicales: La détection d'anomalies subtiles telles que de petites tumeurs, des lésions ou des polypes dans les scanners médicaux (CT, MRI) nécessite une grande précision pour faciliter le diagnostic. Une localisation précise est essentielle pour la planification du traitement. En savoir plus sur l'IA dans les soins de santé et la recherche dans des revues telles que Radiology : Artificial Intelligence. Vous pouvez explorer des ensembles de données tels que l'ensemble de données sur les tumeurs cérébrales pour des tâches connexes.
  • Conduite autonome: La détection et la localisation précises des piétons, des cyclistes, des autres véhicules et des panneaux de signalisation, en particulier ceux qui sont petits ou partiellement occultés, sont essentielles pour les systèmes de sécurité des voitures autonomes. Des entreprises comme Waymo s'appuient fortement sur des systèmes de perception robustes.
  • Compréhension détaillée de la scène : Les applications nécessitant une compréhension fine des interactions entre les objets ou un comptage précis bénéficient d'une plus grande précision.
  • Contrôle de la qualité dans la fabrication : L'identification de petits défauts ou la vérification de l'emplacement des composants dans des assemblages complexes exigent souvent une grande précision. En savoir plus sur l'IA dans la fabrication.

La formation de ces modèles implique généralement de grands ensembles de données étiquetées, tels que l'ensemble de données COCO, et une mise au point minutieuse. Ultralytics fournit des ressources pour l'entraînement des modèles et la compréhension des mesures de performance. Bien qu'Ultralytics se concentre sur les modèles efficaces à une étape comme Ultralytics YOLO, la compréhension des détecteurs à deux étapes fournit un contexte précieux dans le domaine plus large de la détection d'objets.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers