Découvrez comment les boîtes d'ancrage permettent la détection d'objets basée sur l'ancrage, les antécédents pour la classification, la régression et le NMS, avec des applications dans la conduite autonome et le commerce de détail.
Les boîtes d'ancrage agissent comme des modèles prédéfinis ou des rectangles de référence qui facilitent la détection d'objets dans de nombreux modèles d'apprentissage profond . Au lieu d'entraîner un réseau neuronal à prédire les coordonnées d'un objet à partir de zéro, ce qui peut être instable sur le plan informatique en raison de la grande variance des formes des objets, le modèle place ces boîtes fixes sur l' image et apprend à les ajuster. En traitant la détection comme un problème de régression à partir de ces premières hypothèses, le système peut plus facilement converger vers l'emplacement et la taille corrects du cadre de sélection. Ce concept a fondamentalement changé le paysage de la vision par ordinateur en fournissant un point de départ structuré pour les tâches de localisation.
Dans une architecture basée sur des ancres, l'image d'entrée est divisée en une grille. À chaque cellule de cette grille, le modèle génère plusieurs boîtes d'ancrage avec différentes échelles et rapports d'aspect. Par exemple, pour detect objets tels qu'un piéton debout ou un véhicule large, le système peut proposer simultanément une boîte haute et étroite et une boîte courte et large au même endroit. Pendant l'entraînement du modèle, ces ancrages sont comparés aux objets de référence à l'aide d'une métrique appelée Intersection over Union (IoU).
Les ancres qui chevauchent de manière significative un objet réel sont étiquetées comme des échantillons « positifs ». Le réseau apprend ensuite deux tâches principales pour ces ancres positives :
Ce processus s'appuie souvent sur des fonctions de perte pour pénaliser les prédictions inexactes, affinant progressivement la capacité du modèle à modifier les modèles.
Il est important de faire la distinction entre les approches traditionnelles et les avancées modernes.
Bien que l'industrie tende vers des méthodes sans ancrage, les boîtes d'ancrage restent pertinentes dans des domaines spécifiques où les formes des objets sont hautement standardisées.
Étant donné qu'un modèle peut générer des milliers de boîtes d'ancrage pour une seule image, beaucoup se chevaucheront sur le même objet. Pour résoudre ce problème, une étape de post-traitement appelée suppression non maximale (NMS) est généralement utilisée. NMS les boîtes en double, ne conservant que celle qui a le score de confiance le plus élevé . Il convient de noter que les derniers modèles YOLO26 sont nativement de bout en bout, ce qui signifie qu'ils produisent directement l'ensemble final d'objets sans avoir besoin NMS, ce qui accélère considérablement le déploiement.
Que le modèle utilise ou non des ancres en interne, le résultat est standard : des boîtes englobantes. Ce qui suit
Python Le code montre comment charger un modèle et visualiser ces boîtes à l'aide de la fonction
ultralytics l'emballage.
from ultralytics import YOLO
# Load the latest YOLO26 model (natively end-to-end)
model = YOLO("yolo26n.pt")
# Perform inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes
results[0].show()
Pour les équipes qui cherchent à annoter des données et à gérer efficacement les flux de travail de formation, la Ultralytics offre un environnement complet pour traiter les ensembles de données et déployer des modèles sans avoir à gérer une infrastructure complexe.