Découvrez comment les boîtes d'ancrage permettent la détection d'objets basée sur l'ancrage, les antécédents pour la classification, la régression et le NMS, avec des applications dans la conduite autonome et le commerce de détail.
Les boîtes d'ancrage constituent un concept fondamental dans l'architecture de nombreux modèles de détection d'objets. modèles de détection d'objets, en tant que références prédéfinies pour prédire l'emplacement et la taille des objets. Plutôt que d'analyser une image à la recherche d'objets de dimensions arbitraires, le modèle utilise ces formes fixes définies par des hauteurs spécifiques. Le modèle utilise ces formes fixes, définies par des hauteurs et des largeurs spécifiques, comme points de départ, plutôt que de scanner une image à la recherche d'objets de dimensions arbitraires, ou antécédents. Cette approche simplifie le processus d'apprentissage en transformant la tâche difficile de la prédiction des coordonnées absolues en une régression plus facile à gérer. de prédiction des coordonnées absolues en un problème de régression plus facile à gérer, dans lequel le réseau apprend à ajuster, ou "décaler", ces modèles pour s'adapter aux objets de la réalité du terrain. pour s'adapter aux objets de la réalité du terrain. Cette technique Cette technique a joué un rôle essentiel dans le succès d'architectures populaires telles que la famille R-CNN plus rapide et la famille R-CNN plus ancienne. R-CNN plus rapide et les premiers détecteurs à une étape.
Le mécanisme des boîtes d'ancrage consiste à recouvrir l'image d'entrée d'une grille dense de centres. À chaque cellule de la grille, plusieurs boîtes d'ancrage avec des rapports d'aspect et des échelles d'aspect et d'échelle sont générées pour prendre en compte des objets de formes différentes, tels que des piétons de grande taille ou des véhicules larges. Au cours de la phase d'apprentissage du modèle, le système fait correspondre ces phase d'apprentissage du modèle, le système fait correspondre ces ancres aux objets réels à l'aide d'une métrique appelée Intersection sur Union (IoU). Les ancres qui se chevauchent de manière significative avec un objet cible sont étiquetés comme des échantillons positifs.
La colonne vertébrale du détecteur extrait les caractéristiques de l'image, que la tête de détection utilise pour effectuer deux tâches parallèles pour chaque ancre positive :
Pour traiter les prédictions qui se chevauchent pour un même objet, une étape de post-traitement connue sous le nom de suppression non maximale (NMS ) filtre les boîtes redondantes les boîtes redondantes, en ne conservant que celle dont la confiance est la plus élevée. Des cadres tels que PyTorch et TensorFlow fournissent les outils de calcul nécessaires pour pour mettre en œuvre ces opérations complexes de manière efficace.
Pour comprendre les boîtes d'ancrage, il faut les distinguer des termes similaires dans le domaine de la vision par ordinateur. vision par ordinateur (VA).
La nature structurée des boîtes d'ancrage les rend particulièrement efficaces dans les environnements où les formes des objets sont cohérentes et prévisibles. sont cohérentes et prévisibles.
Alors que les modèles modernes tels que YOLO11 sont dépourvus d'ancrage, les versions antérieures telles que YOLOv5 utilisent des boîtes d'ancrage. Les
ultralytics fait abstraction de cette complexité, permettant aux utilisateurs d'exécuter l'inférence sans configurer manuellement les ancres.
configurer manuellement les ancres. L'exemple suivant montre le chargement d'un modèle pré-entraîné pour detect objets :
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Pour ceux qui s'intéressent aux fondements mathématiques de ces systèmes, des plateformes éducatives telles que Coursera et DeepLearning.AI proposent des cours approfondis sur les réseaux neuronaux convolutifs et la détection d'objets.