Découvrez comment les détecteurs basés sur des ancres révolutionnent la détection d'objets grâce à une localisation précise, une adaptabilité d'échelle et des applications concrètes.
Les détecteurs basés sur l'ancrage sont une classe fondamentale de modèles utilisés en vision artificielle (CV) pour résoudre le problème de la détection d'objets. Ces systèmes s'appuient sur un d'un ensemble prédéfini de boîtes de délimitation, connues sous le nom de boîtes d'ancrage, qui agissent comme des modèles de référence sur une image. Au lieu d'essayer de prédire l'emplacement d'un objet à partir de zéro, le réseau calcule de combien de déplacer et de mettre à l'échelle ces boîtes d'ancrage fixes pour qu'elles s'adaptent parfaitement aux objets de la scène. Cette approche convertit essentiellement la complexe de la localisation en un problème de régression structuré, offrant ainsi un point de départ stable aux modèles d'apprentissage profond (DL). d'apprentissage profond (DL) pour apprendre les hiérarchies hiérarchies spatiales.
Le flux de travail d'un détecteur basé sur les ancres consiste à générer une grille dense d'ancres sur l'image d'entrée, chacune avec des échelles et des rapports d'aspect variables pour capturer des objets de tailles et de formes différentes. d'échelle et d'aspect pour capturer des objets de tailles et de formes différentes. Au fur et à mesure que l'image traverse l'ossature du modèle, des cartes de caractéristiques sont extraites et analysées. les cartes de caractéristiques sont extraites et analysées. Pour chaque emplacement d'ancre, la tête de détection tête de détection effectue deux prédictions simultanées simultanées :
Lors de l'apprentissage d'un modèle, les algorithmes utilisent une métrique appelée Intersection sur Union (IoU) pour déterminer les ancres qui se chevauchent suffisamment avec des objets connus. Seules les ancres ayant l'IoU le plus élevé sont traitées comme des échantillons positifs. échantillons positifs. Comme ce processus génère des milliers de boîtes candidates, une étape de post-traitement appelée Suppression non maximale (NMS ) est appliquée est appliquée pour supprimer les chevauchements redondants et ne conserver que les détections les plus précises.
Il est important de distinguer ces modèles de la génération moderne de détecteurs sans ancrage. détecteurs sans ancrage. Alors que les systèmes basés sur l'ancrage comme le R-CNN plus rapide d' origine et le Ultralytics YOLOv5 s'appuient sur un réglage manuel des dimensions de l'ancrage, les modèles sans ancrage les modèles sans ancrage prédisent directement les centres des objets ou les points clés.
Malgré l'essor de nouvelles méthodes, les détecteurs basés sur l'ancrage restent prédominants dans de nombreux pipelines établis où les formes d'objets sont cohérentes et prévisibles. formes d'objets sont cohérentes et prévisibles.
Vous pouvez facilement expérimenter la détection d'objets à l'aide de la fonction ultralytics de l'emballage. Bien que les derniers modèles
sont exempts d'ancrage, le cadre prend en charge une variété d'architectures. L'exemple suivant montre comment exécuter l'inférence sur une image à l'aide d'un modèle pré-entraîné
sur une image en utilisant un modèle pré-entraîné :
from ultralytics import YOLO
# Load a pre-trained object detection model
# Note: YOLOv5 is a classic example of an anchor-based architecture
model = YOLO("yolov5su.pt")
# Perform inference on a local image
results = model("path/to/image.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()
Comprendre les mécanismes des détecteurs à base d'ancrage fournit une base solide pour comprendre l'évolution de la vision par ordinateur et les choix de conception à l'origine de cette évolution. de la vision par ordinateur et les choix de conception des algorithmes avancés tels que YOLO11 et les itérations futures comme YOLO26.