Anchor-Based Detectors
Explore comment les détecteurs basés sur des ancres (anchor-based) utilisent des boîtes englobantes prédéfinies pour la détection d'objets. Apprends leurs mécanismes fondamentaux, leurs cas d'usage réels et comment ils se comparent au moderne et plus rapide Ultralytics YOLO26.
Les détecteurs basés sur des ancres sont une catégorie fondamentale de modèles de détection d'objets en vision par ordinateur qui utilisent un ensemble de boîtes englobantes prédéfinies pour localiser et classifier des objets. Au lieu d'essayer de prédire les coordonnées d'un objet à partir de zéro, ces systèmes commencent avec des modèles de référence fixes appelés anchor boxes. Le réseau de neurones est ensuite entraîné à déterminer lequel de ces modèles correspond le mieux à un objet dans l'image et à calculer les décalages spécifiques — des ajustements de position et de taille — nécessaires pour aligner parfaitement l'ancre avec la cible. Cette approche transforme le problème difficile de la prédiction arbitraire de coordonnées en une tâche de régression plus stable, ce qui a constitué une avancée clé dans le développement des premières architectures d'apprentissage profond (DL) comme Faster R-CNN et SSD.
Link to this sectionComment fonctionnent les mécanismes basés sur des ancres#
Le fonctionnement central d'un détecteur basé sur des ancres repose sur la division de l'image d'entrée en une grille dense. À chaque cellule de cette grille, le modèle génère plusieurs anchor boxes avec des échelles et des rapports de forme variés pour tenir compte des différentes formes d'objets, comme des piétons grands ou des véhicules larges. À mesure que les données de l'image traversent le backbone du modèle, le réseau extrait des caractéristiques riches pour effectuer deux tâches simultanées :
-
Classification : Le modèle attribue un score de probabilité à chaque ancre, prédisant si elle contient une classe spécifique d'objet (par exemple, "voiture", "chien") ou s'il s'agit simplement de bruit de fond.
-
Régression de boîte : Pour les ancres identifiées comme contenant un objet, le réseau prédit des facteurs de correction pour affiner les coordonnées centrales
x, y, la largeur et la hauteur de l'ancre, ce qui aboutit à une bounding box précise.
Pendant l'entraînement du modèle, ces détecteurs utilisent une métrique appelée Intersection over Union (IoU) pour faire correspondre les ancres prédéfinies avec les étiquettes de vérité terrain fournies dans le jeu de données. Les ancres ayant un fort chevauchement sont traitées comme des échantillons positifs. Comme ce processus génère des milliers de détections potentielles, un algorithme de filtrage appelé Non-Maximum Suppression (NMS) est appliqué lors de l'inférence pour éliminer les boîtes redondantes et ne conserver que la prédiction la plus précise pour chaque objet.
Link to this sectionComparaison avec les détecteurs sans ancres (anchor-free)#
Alors que les méthodes basées sur des ancres ont établi la norme pendant des années, le domaine a évolué vers les anchor-free detectors. Comprendre la distinction est vital pour les praticiens modernes.
- Basé sur des ancres : Des modèles comme YOLOv5 et le RetinaNet original s'appuient sur une configuration manuelle ou des algorithmes de regroupement comme le k-means clustering pour déterminer les meilleures tailles d'ancres pour un jeu de données. Cela offre de la stabilité, mais peut être rigide si les formes des objets varient considérablement.
- Sans ancres : Les architectures modernes, dont YOLO26, suppriment souvent complètement l'étape des ancres. Elles prédisent les centres et les tailles des objets directement à partir des pixels de la carte de caractéristiques, réduisant la surcharge computationnelle et simplifiant la recherche d'hyperparamètres. Cette approche "de bout en bout" est généralement plus rapide et plus facile à entraîner sur des données diverses.
Link to this sectionApplications concrètes#
La logique basée sur des ancres reste pertinente dans de nombreux systèmes de production hérités et spécialisés où les formes des objets sont prévisibles et cohérentes.
- Surveillance du trafic : Dans les systèmes de transport intelligents, les caméras détectent les véhicules pour gérer le flux ou identifier les infractions. Comme les voitures et les camions ont des dimensions standardisées, les modèles basés sur des ancres peuvent être ajustés avec des priors spécifiques pour maximiser la précision et le rappel.
- Automatisation de la vente au détail : Les systèmes de paiement automatisés utilisent la vision par ordinateur pour identifier les produits. Comme les produits emballés, tels que les boîtes de céréales, conservent un rapport de forme fixe, les ancres fournissent un prior solide pour le réseau, l'aidant à distinguer des articles d'aspect similaire dans une scène encombrée.
Link to this sectionExemple d'implémentation#
Bien que les derniers modèles YOLO26 utilisent des têtes sans ancres pour des performances supérieures, l'interface pour exécuter la détection reste cohérente. La Ultralytics Platform et l'API Python font abstraction de la complexité de savoir si un modèle utilise des ancres ou des points centraux, permettant aux utilisateurs de se concentrer sur les résultats.
Voici comment charger un modèle et exécuter une inférence pour détecter des objets, un flux de travail qui s'applique quelle que soit l'architecture d'ancrage sous-jacente :
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Run inference on an image source
# The model handles internal logic (anchor-based or anchor-free) automatically
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the first result with bounding boxes
results[0].show()Link to this sectionPour aller plus loin#
Pour approfondir ta compréhension des mécanismes de détection, explore la recherche fondamentale sur Faster R-CNN qui a introduit le Region Proposal Network (RPN), ou lis des informations sur le Single Shot MultiBox Detector (SSD), qui a optimisé la détection basée sur des ancres pour la vitesse. Pour une vue plus large du domaine, le COCO dataset sert de référence standard pour évaluer à la fois les modèles basés sur des ancres et ceux sans ancres. De plus, les cours avancés sur Coursera couvrent souvent les détails mathématiques de la régression de boîte et de la correspondance d'ancres.






