Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Détecteurs d'objets à deux étapes

Découvrez la puissance des détecteurs d'objets à deux étapes : des solutions axées sur la précision pour une détection d'objets précise dans des tâches complexes de vision par ordinateur.

Les détecteurs d'objets en deux étapes sont une classe de modèles d'apprentissage profond sophistiqués conçus pour identifier les objets en mouvement. sophistiqués d'apprentissage profond conçus pour identifier et d'identifier et de localiser des objets dans des images avec une grande précision. Contrairement à leurs homologues plus rapides, ces architectures divisent la tâche de détection d'objets en deux phases distinctes. détection d'objets en deux phases distinctes : l'identification des régions potentielles où des objets pourraient exister, puis la classification de ces régions tout en affinant leurs coordonnées. coordonnées. Cette approche en deux étapes a historiquement fait des détecteurs en deux étapes l'étalon-or pour les tâches où la précision est primordiale, souvent à l'échelle d'un pays. où la précision est primordiale, souvent au détriment de la vitesse et des des ressources informatiques.

Le processus en deux étapes

L'architecture d'un détecteur à deux étages fonctionne comme un entonnoir, réduisant les données d'une image large à des objets spécifiques, spécifiques et classés. Ce processus implique généralement un Ce processus implique généralement un réseau dorsal, tel que ResNet, pour extraire les caractéristiques, suivi des deux étapes critiques :

  1. Proposition de région : La première étape utilise un composant souvent appelé réseau de proposition de régions (RPN). Ce réseau analyse les cartes de caractéristiques générées par le pour identifier les "régions d'intérêt" (RdI). À ce stade, le modèle ne catégorise pas l'objet. Il agit essentiellement comme un filtre d'arrière-plan, en signalant les zones susceptibles de contenir quelque chose par rapport aux zones vides. les zones vides. Ce concept a été consolidé dans le document de recherche Faster R-CNN.
  2. Classification et affinement : Au cours de la deuxième étape, les régions proposées sont regroupées dans une taille fixe et introduites dans une tête de détection spécifique. taille fixe et introduites dans une tête de détection spécifique. Cette tête Cette tête effectue deux tâches simultanées : elle attribue une étiquette de classe spécifique (par exemple, "personne", "véhicule") à l'objet et utilise les données de la tête de détection pour déterminer la classe de l'objet. "véhicule") à l'objet et utilise la régression régression de la boîte englobante pour ajuster les coordonnées, pour ajuster les coordonnées, en s'assurant que la boîte s'adapte bien à l'objet.

Détecteurs à deux étapes vs. détecteurs à une étape

Il est important de comprendre la différence entre les détecteurs d'objets à deux étapes et les détecteurs d'objets à une étape. détecteurs d'objets à deux étages et à un étage est fondamentale pour choisir le bon modèle pour une application.

  • Détecteurs à deux niveaux (par exemple, R-CNN plus rapide, R-CNN à masque) : Ces modèles privilégient la précision. En séparant En séparant la proposition et la classification, ils gèrent très bien les scènes complexes avec des objets qui se chevauchent ou de petits détails. détails. Cependant, ce mécanisme de double vérification introduit une latence d'inférence plus élevée, ce qui les rend difficiles à utiliser. latence d'inférence plus élevée, ce qui les rend difficiles à déployer dans des environnements nécessitant des réponses immédiates. difficiles à déployer dans des environnements nécessitant des réponses immédiates.
  • Détecteurs à un étage (par exemple, YOLO, SSD) : Les architectures telles que le Ultralytics YOLO traitent la détection comme un problème de régression de régression. Ils associent directement les pixels de l'image aux coordonnées de la boîte englobante et aux probabilités de classe en un seul passage. Bien qu'historiquement historiquement moins précis que les modèles en deux étapes, les itérations modernes comme les YOLO11 ont effectivement comblé l'écart de précision tout en tout en maintenant des vitesses d'inférence en temps réel.

Architectures clés dans l'histoire

Plusieurs architectures ont défini l'évolution de la détection en deux étapes :

  • R-CNN (réseaux neuronaux convolutionnels basés sur les régions): Le pionnier de cette famille, qui utilise la recherche sélective pour proposer des régions avant de les introduire dans un réseau neuronal convolutionnel (CNN). réseau neuronal convolutif (CNN).
  • R-CNN rapide: Amélioration de l'original en partageant le calcul sur l'ensemble de l'image, ce qui augmente considérablement l'efficacité de l'apprentissage. le calcul sur l'ensemble de l'image, ce qui augmente considérablement l'efficacité de l'apprentissage.
  • Masque R-CNN: Une extension de Faster R-CNN qui ajoute une branche pour prédire les masques de segmentation. pour prédire les masques de segmentation, ce qui permet de segmentation d'instances en plus de la standard.

Applications concrètes

Parce que les détecteurs à deux étages excellent dans la localisation de petits objets et dans la réduction des faux positifs, ils restent essentiels dans des secteurs spécifiques. les faux positifs, ils restent essentiels dans certains secteurs d'activité.

  • Analyse d'images médicales: En radiologie, l'identification de petits nodules ou de tumeurs dans les tomodensitogrammes exige la plus grande sensibilité possible. Les modèles en deux étapes sont souvent utilisés ici pour minimiser le risque de manquer un diagnostic critique. sont souvent utilisés pour minimiser le risque de manquer un diagnostic critique, comme l'expliquent plusieurs études sur l'IA dans le secteur de la santé. l 'IA dans les soins de santé.
  • Inspection automatisée de la qualité: Dans le domaine de la fabrication, l'identification des défauts microscopiques sur les cartes de circuits imprimés ou les pièces usinées nécessite une analyse à haute résolution. haute résolution. Les capacités de localisation précise des détecteurs à deux étages permettent de détecter des défauts qui pourraient être ignorés par des modèles plus rapides et moins granulaires. par des modèles plus rapides et moins granulaires.

Mise en œuvre d'une détection de haute précision

Bien qu'Ultralytics soit spécialisé dans les modèles à un étage, les versions modernes comme YOLO11 offrent la haute précision typiquement associée aux détecteurs à deux étages, mais avec une vitesse d'exécution plus rapide. précision typiquement associée aux détecteurs à deux étapes, mais avec un apprentissage et une inférence beaucoup plus rapides.

Voici comment mettre en œuvre un modèle YOLO11 pré-entraîné à l'aide de la fonction ultralytics pour obtenir des résultats de détection des résultats de détection de haute précision :

from ultralytics import YOLO

# Load a high-accuracy pre-trained YOLO11 model (Large variant)
# 'yolo11l.pt' offers a balance of high accuracy comparable to older two-stage models
model = YOLO("yolo11l.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results with bounding boxes
results[0].show()

Concepts connexes

  • Boîtes d'ancrage: Formes de boîtes prédéfinies utilisées par de nombreux détecteurs en deux étapes pour estimer la taille et le rapport d'aspect de l'objet au cours de l'étape de proposition.
  • Suppression non maximale (NMS): Technique de post-traitement utilisée dans les détecteurs à une ou deux étapes pour éliminer les boîtes redondantes qui se chevauchent, pour ne conserver que la détection la plus sûre.
  • Intersection sur Union (IoU) : Une métrique utilisée pour mesurer le chevauchement entre la boîte prédite et la vérité de terrain, essentielle pour l'entraînement de l'IPR et les têtes d'affinage.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant