Détecteurs d'objets à deux étapes
Découvrez la puissance des détecteurs d'objets à deux étapes : des solutions axées sur la précision pour une détection d'objets précise dans des tâches complexes de vision par ordinateur.
Les détecteurs d'objets à deux étapes sont une classe de modèles de vision par ordinateur qui identifient et localisent les objets dans une image ou une vidéo par le biais d'un processus séquentiel en deux étapes. Cette méthodologie est connue pour sa grande précision, en particulier pour la localisation précise des objets, bien qu'elle se fasse souvent au prix d'une latence d'inférence plus élevée. L'idée fondamentale est d'abord d'identifier les zones d'intérêt potentielles, puis d'effectuer une classification et une localisation détaillées uniquement sur ces régions prometteuses.
Le processus en deux étapes
Le fonctionnement d'un détecteur à deux étapes est divisé en phases distinctes et séquentielles :
Génération de propositions de régions : Dans la première étape, le modèle scanne l'image pour générer un ensemble de régions candidates, appelées « régions d'intérêt » (RoI) ou propositions, susceptibles de contenir un objet. Ceci est généralement accompli par un sous-module appelé réseau de proposition de régions (RPN), tel qu'il a été introduit dans l'architecture Faster R-CNN. Le but de cette étape n'est pas de classifier les objets, mais simplement de réduire le nombre d'emplacements que la deuxième étape doit analyser.
Classification d'objets et raffinement des boîtes englobantes : Dans la deuxième étape, chaque région proposée est transmise à une tête de classification et à une tête de régression. La tête de classification détermine la classe de l'objet dans la RoI (par exemple, « personne », « voiture », « chien ») ou la désigne comme arrière-plan. Simultanément, la tête de régression affine les coordonnées de la boîte englobante pour qu'elle corresponde plus précisément à l'objet. Cette analyse ciblée des régions présélectionnées permet au modèle d'atteindre une grande précision de localisation.
Détecteurs à deux étapes vs. détecteurs à une étape
La principale distinction réside dans leur pipeline opérationnel. Les détecteurs en deux étapes séparent les tâches de localisation et de classification, tandis que les détecteurs d'objets en une étape effectuent les deux tâches simultanément en un seul passage.
- Détecteurs à deux étapes (par exemple, la famille R-CNN) : Privilégient la précision. Le processus en deux étapes permet une extraction et un affinement plus détaillés des caractéristiques pour chaque objet potentiel, ce qui conduit à de meilleures performances sur les scènes complexes avec de nombreux objets petits ou qui se chevauchent. Leur complexité, cependant, les rend gourmands en calcul et plus lents.
- Détecteurs en une étape (par exemple, Ultralytics YOLO, SSD) : Privilégient la vitesse et l'efficacité. En traitant la détection d'objets comme un simple problème de régression, ils atteignent des vitesses d'inférence en temps réel adaptées aux applications sur les appareils d'edge AI. Bien que les modèles modernes en une étape comme YOLO11 aient considérablement réduit l'écart de précision, les détecteurs en deux étapes peuvent toujours être préférés pour les tâches exigeant la plus grande précision possible.
Architectures importantes
L'évolution des détecteurs à deux étapes a été marquée par plusieurs modèles influents :
- R-CNN (Réseau de Neurones Convolutionnel basé sur les Régions) : Le modèle pionnier qui a proposé pour la première fois d'utiliser des propositions de régions avec un réseau de neurones convolutionnel (CNN). Il utilisait un algorithme externe appelé Selective Search pour générer des propositions.
- Fast R-CNN : Une amélioration qui traitait l'image entière via un CNN une seule fois, partageant le calcul et accélérant considérablement le processus.
- Faster R-CNN : A introduit le Region Proposal Network (RPN), intégrant le mécanisme de proposition de région dans le réseau neuronal lui-même pour une solution d'apprentissage profond de bout en bout.
- Mask R-CNN : Étend Faster R-CNN en ajoutant une troisième branche qui génère un masque au niveau des pixels pour chaque objet, permettant la segmentation d'instance.
Applications concrètes
La haute précision des détecteurs à deux étapes les rend précieux dans les scénarios où la précision est primordiale :
- Analyse d'images médicales : La détection d'anomalies subtiles comme de petites tumeurs, des lésions ou des polypes dans les images médicales (CT, IRM) nécessite une grande précision pour faciliter le diagnostic. Une localisation précise est essentielle pour la planification du traitement. Pour en savoir plus sur l'IA dans le domaine de la santé et la recherche dans des revues comme Radiology : Artificial Intelligence. Vous pouvez explorer des ensembles de données comme l'ensemble de données sur les tumeurs cérébrales pour des tâches connexes.
- Conduite autonome : La détection et la localisation précises des piétons, des cyclistes, des autres véhicules et des panneaux de signalisation, en particulier ceux qui sont petits ou partiellement occultés, sont essentielles pour les systèmes de sécurité des voitures autonomes. Des entreprises comme Waymo s'appuient fortement sur des systèmes de perception robustes.
- Compréhension détaillée de la scène : Les applications nécessitant une compréhension précise des interactions entre les objets ou un comptage précis bénéficient d'une plus grande exactitude.
- Contrôle qualité dans la fabrication : L’identification de petits défauts ou la vérification du placement des composants dans des assemblages complexes exigent souvent une grande précision. En savoir plus sur l’IA dans la fabrication.
L'entraînement de ces modèles implique généralement de grands ensembles de données étiquetés, tels que l'ensemble de données COCO, et un réglage minutieux. Ultralytics fournit des ressources pour l'entraînement des modèles et la compréhension des métriques de performance. Bien qu'Ultralytics se concentre sur les modèles efficaces à une étape comme Ultralytics YOLO, la compréhension des détecteurs à deux étapes fournit un contexte précieux dans le domaine plus large de la détection d'objets.