Two-Stage Object Detectors
Explore les mécanismes des détecteurs d'objets à deux étapes, en se concentrant sur les propositions de régions et la classification. Apprends pourquoi les modèles modernes comme Ultralytics YOLO26 mènent désormais la danse.
Les détecteurs d'objets à deux étapes sont une classe sophistiquée d'architectures de deep learning (DL) utilisées en vision par ordinateur pour identifier et localiser des éléments dans une image. Contrairement à leurs homologues à une étape, qui effectuent la détection en un seul passage, ces modèles divisent la tâche en deux phases distinctes : la proposition de région et la classification d'objet. Cette approche bifurquée a été lancée pour privilégier une précision de localisation élevée, rendant ces détecteurs historiquement significatifs dans l'évolution de l'intelligence artificielle (AI). En séparant le « où » du « quoi », les détecteurs à deux étapes obtiennent souvent une précision supérieure, en particulier sur les objets petits ou occlus, bien que cela se fasse généralement au prix de ressources computationnelles accrues et d'une latence d'inférence plus lente.
Link to this sectionLe processus à deux étapes#
L'architecture d'un détecteur à deux étapes repose sur un flux de travail séquentiel qui imite la façon dont un humain pourrait examiner attentivement une scène.
-
Proposition de région : Dans la première étape, le modèle scanne l'image d'entrée pour identifier les zones potentielles où des objets pourraient exister. Un composant connu sous le nom de Region Proposal Network (RPN) génère un ensemble épars de boîtes candidates, souvent appelées Régions d'Intérêt (RoI). Cette étape filtre la majorité de l'arrière-plan, permettant au réseau de concentrer sa puissance de traitement sur les zones pertinentes.
-
Classification et raffinement : Dans la deuxième étape, le modèle extrait des caractéristiques de ces régions candidates en utilisant des Convolutional Neural Networks (CNNs). Il assigne ensuite une étiquette de classe spécifique (par exemple, « personne », « véhicule ») à chaque région et affine les coordonnées de la bounding box pour englober étroitement l'objet.
Des exemples éminents de cette architecture incluent la famille R-CNN, spécifiquement Faster R-CNN et Mask R-CNN, qui ont établi la norme pour les benchmarks académiques pendant plusieurs années.
Link to this sectionComparaison avec les détecteurs à une étape#
Il est utile de distinguer les modèles à deux étapes des one-stage object detectors comme le Single Shot MultiBox Detector (SSD) et la série Ultralytics YOLO. Alors que les modèles à deux étapes privilégient la précision en traitant les régions séparément, les modèles à une étape formulent la détection comme un seul problème de régression, mappant les pixels de l'image directement aux coordonnées des boîtes englobantes et aux probabilités de classe.
Historiquement, cela créait un compromis : les modèles à deux étapes étaient plus précis mais plus lents, tandis que les modèles à une étape étaient plus rapides mais moins précis. Cependant, les avancées modernes ont estompé cette frontière. Des modèles de pointe comme YOLO26 utilisent désormais des architectures de bout en bout qui rivalisent avec la précision des détecteurs à deux étapes tout en maintenant la vitesse nécessaire pour l'inférence en temps réel.
Link to this sectionApplications concrètes#
En raison de leur accent mis sur la précision et le rappel, les détecteurs à deux étapes sont souvent préférés dans les scénarios où la sécurité et les détails sont plus critiques que la vitesse de traitement brute.
- Imagerie diagnostique médicale : Dans le domaine de l'IA dans la santé, manquer un diagnostic peut être critique. Les architectures à deux étapes sont fréquemment utilisées dans l'analyse d'images médicales pour détecter des anomalies telles que des tumeurs dans des radiographies ou des scanners IRM. Le processus en plusieurs étapes aide à garantir que les petites lésions ne sont pas négligées sur des arrière-plans tissulaires complexes, fournissant aux radiologues une assistance automatisée à haute confiance.
- Inspection industrielle de haute précision : Dans la fabrication intelligente, les systèmes d'inspection visuelle automatisés utilisent ces modèles pour identifier des défauts microscopiques sur les chaînes de montage. Par exemple, détecter une fissure capillaire dans une aube de turbine nécessite la haute précision de l'Intersection sur Union (IoU) que fournissent les détecteurs à deux étapes, garantissant que seuls les composants sans défaut passent à l'étape suivante de la production.
Link to this sectionMise en œuvre de la détection moderne#
Bien que les détecteurs à deux étapes aient établi les bases d'une vision de haute précision, les développeurs modernes utilisent souvent des modèles avancés à une étape qui offrent des performances comparables avec des flux de travail de déploiement nettement plus faciles. La Ultralytics Platform simplifie l'entraînement et le déploiement de ces modèles, gérant efficacement les jeux de données et les ressources de calcul.
L'exemple Python suivant démontre comment charger et exécuter une inférence en utilisant un flux de travail de détection d'objets moderne avec ultralytics, obtenant des résultats de haute précision similaires aux approches traditionnelles à deux étapes, mais avec une plus grande efficacité :
from ultralytics import YOLO
# Load the YOLO26 model, a modern high-accuracy detector
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Process results (bounding boxes, classes, and confidence scores)
for result in results:
result.show() # Display the detection outcomes
print(result.boxes.conf) # Print confidence scores





