Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Boîtes d'ancrage

Découvrez comment les boîtes d'ancrage servent de modèles de référence pour la détection d'objets. Découvrez comment elles améliorent la précision et comment des modèles tels que Ultralytics utilisent des conceptions sans ancrage.

Les boîtes d'ancrage sont des rectangles de référence prédéfinis, avec des proportions et des échelles spécifiques, qui sont placés sur une image pour aider les modèles de détection d'objets à localiser et à classer les objets. Plutôt que de demander à un réseau neuronal de prédire la taille et la position exactes d'un objet à partir de zéro, ce qui peut être instable en raison de la grande variété de formes des objets , le modèle utilise ces modèles fixes comme point de départ. En apprenant à prédire dans quelle mesure ajuster, ou « régresser », ces boîtes initiales pour les adapter à la réalité, le système peut atteindre une convergence plus rapide et une plus grande précision. Cette technique a fondamentalement transformé le domaine de la vision par ordinateur (CV) en simplifiant la tâche complexe de localisation pour en faire un problème d'optimisation plus facile à gérer.

Le mécanisme des boîtes d'ancrage

Dans les détecteurs classiques basés sur des ancres, l' image d'entrée est divisée en une grille de cellules. À chaque emplacement de cellule, le réseau génère plusieurs boîtes d'ancrage avec des géométries différentes. Par exemple, pour detect simultanément detect piéton de grande taille et une voiture large, le modèle peut proposer une boîte haute et étroite et une boîte courte et large au même point central.

Pendant l'entraînement du modèle, ces ancres sont comparées à des objets réels à l'aide d'une métrique appelée Intersection over Union (IoU). Les ancres qui chevauchent de manière significative un objet étiqueté sont désignées comme des échantillons « positifs ». Le réseau apprend alors deux tâches parallèles :

  1. Classification : elle attribue un score de probabilité à l'ancrage, indiquant la probabilité qu'il contienne une classe spécifique (par exemple, « chien » ou « vélo »). Elle utilise des objectifs d'apprentissage supervisé standard tels que la perte d'entropie croisée.
  2. Régression de la boîte : calcule les valeurs de décalage précises (décalages de coordonnées et facteurs d'échelle) nécessaires pour transformer l'ancrage générique en une boîte englobante parfaitement ajustée .

Cette approche permet au modèle de traiter plusieurs objets de tailles différentes situés à proximité les uns des autres, car chaque objet peut être assigné à l'ancrage qui correspond le mieux à sa forme.

Applications concrètes

Bien que les architectures plus récentes s'orientent vers des conceptions sans ancrage, les boîtes d'ancrage restent essentielles dans de nombreux systèmes de production établis où les caractéristiques des objets sont prévisibles.

  • Gestion de la vente au détail et des stocks : dans les solutions de vente au détail basées sur l'IA, des caméras surveillent les stocks en rayon . Étant donné que les produits tels que les boîtes de céréales ou les canettes de soda ont des dimensions standardisées, les boîtes d'ancrage peuvent être réglées en fonction de ces proportions spécifiques. Ces connaissances préalables aident le modèle à maintenir un niveau élevé de rappel, même dans des environnements encombrés.
  • Conduite autonome : les piles de perception dans les véhicules autonomes reposent sur la détection des piétons, des véhicules et des panneaux de signalisation. Étant donné qu'une voiture vue de loin a un profil relativement constant par rapport à la route, l'utilisation d'ancres adaptées à ces formes garantit un suivi robuste des objets et une estimation fiable de la distance.

Ancré ou non ancré

Il est important de faire la distinction entre les méthodes traditionnelles basées sur des ancres et les détecteurs modernes sans ancres.

  • Basés sur des ancres : les modèles tels que le Faster R-CNN original ou YOLO premières YOLO (par exemple, YOLOv5) utilisent ces modèles prédéfinis. Ils sont robustes, mais nécessitent souvent un réglage manuel des hyperparamètres (tailles/ratios des ancres) ou des algorithmes de regroupement tels que le regroupement k-means pour s'adapter à de nouveaux ensembles de données.
  • Sans ancrage : les modèles avancés, notamment YOLO26, utilisent souvent des approches sans ancrage ou de bout en bout. Ces réseaux prédisent directement les centres d'objets ou les points clés, éliminant ainsi le besoin de configurer manuellement les ancrages. Cela simplifie l'architecture et accélère l'inférence en éliminant les calculs nécessaires pour traiter des milliers d'ancrages de fond vides.

Exemple : accès aux informations d'ancrage

Bien que les API modernes de haut niveau telles que la Ultralytics masquent ces détails pendant l'entraînement, il est utile de comprendre les ancres lorsque l'on travaille avec des architectures de modèles plus anciennes ou que l'on analyse des fichiers de configuration de modèles. L'extrait suivant montre comment charger un modèle et inspecter sa configuration, où les paramètres d'ancrage (le cas échéant) sont généralement définis.

from ultralytics import YOLO

# Load a pre-trained YOLO model (YOLO26 is anchor-free, but legacy configs act similarly)
model = YOLO("yolo26n.pt")

# Inspect the model's stride, which relates to grid cell sizing in detection
print(f"Model strides: {model.model.stride}")

# For older anchor-based models, anchors might be stored in the model's attributes
# Modern anchor-free models calculate targets dynamically without fixed boxes
if hasattr(model.model, "anchors"):
    print(f"Anchors: {model.model.anchors}")
else:
    print("This model architecture is anchor-free.")

Défis et considérations

Bien qu'efficaces, les boîtes d'ancrage introduisent une certaine complexité. Le grand nombre d'ancres générées (souvent des dizaines de milliers par image) crée un problème de déséquilibre des classes, car la plupart des ancres ne couvrent que l'arrière-plan. Des techniques telles que la perte focale sont utilisées pour atténuer ce problème en réduisant le poids des exemples d'arrière-plan faciles. De plus, le résultat final nécessite généralement une suppression non maximale (NMS) pour filtrer les boîtes redondantes qui se chevauchent, afin de ne conserver que la détection la plus fiable pour chaque objet.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant