Erfahren Sie, wie Ankerboxen eine ankerbasierte Objekterkennung, Prioritäten für Klassifizierung, Regression und NMS ermöglichen, mit Anwendungen im autonomen Fahren und im Einzelhandel.
Ankerboxen dienen als grundlegendes Konzept in der Architektur vieler Objekterkennungsmodellen und dienen als vordefinierte Referenzen für die Vorhersage der Position und Größe von Objekten. Anstatt ein Bild von Grund auf nach Objekten beliebiger Dimensionen zu scannen, verwendet das Modell diese festen Formen, die durch bestimmte Höhen und Breiten definiert sind, als Ausgangspunkte, oder Prioren. Dieser Ansatz vereinfacht den Lernprozess, indem er die schwierige Aufgabe der absoluten Koordinatenvorhersage Vorhersage absoluter Koordinaten in ein leichter zu bewältigendes Regressionsproblem umwandelt, bei dem das Netz lernt, diese Schablonen so anzupassen oder zu Schablonen so anzupassen, dass sie zu den Objekten der Bodenwahrheit passen. Diese Technik war ausschlaggebend für den Erfolg beliebter Architekturen wie der Faster R-CNN Familie und frühen einstufigen Detektoren.
Der Mechanismus der Ankerboxen besteht darin, das Eingabebild mit einem dichten Gitter von Zentren zu kacheln. In jeder Gitterzelle, mehrere Ankerboxen mit unterschiedlichen Seitenverhältnissen und Maßstäben erzeugt, um unterschiedlich geformte Objekte, wie z. B. große Fußgänger oder breite Fahrzeuge, abzubilden. Während der Trainingsphase des Modells gleicht das System diese Anker mit tatsächlichen Objekten anhand einer Metrik namens Schnittpunkt über Einheit (IoU). Verankerungen die sich signifikant mit einem Zielobjekt überschneiden, werden als positive Proben gekennzeichnet.
Das Rückgrat des Detektors extrahiert Merkmale aus dem Bild, die der Detektionskopf verwendet, um zwei zwei parallele Aufgaben für jeden positiven Anker ausführt:
Um überlappende Vorhersagen für dasselbe Objekt zu behandeln, wird ein Nachbearbeitungsschritt, die so genannte Nicht-Maximum-Unterdrückung (NMS) überflüssige Boxen heraus und behält nur diejenige mit dem höchsten Vertrauen. Frameworks wie PyTorch und TensorFlow bieten die notwendigen Berechnungswerkzeuge, um diese komplexen Operationen effizient zu implementieren.
Um Ankerboxen zu verstehen, muss man sie von ähnlichen Begriffen in der Computer Vision (CV).
Die strukturierte Natur der Ankerboxen macht sie besonders effektiv in Umgebungen, in denen die Objektformen konsistent und vorhersehbar sind.
Während moderne Modelle wie YOLO11 ohne Anker auskommen, werden in früheren Versionen wie YOLOv5 Ankerboxen verwendet. Die
ultralytics Paket abstrahiert diese Komplexität, so dass die Benutzer die Inferenz ohne manuelle
Anker zu konfigurieren. Das folgende Beispiel zeigt das Laden eines vortrainierten Modells zur detect Objekten:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Für diejenigen, die sich für die mathematischen Grundlagen dieser Systeme interessieren, sind Bildungsplattformen wie Coursera und DeepLearning.AI bieten vertiefende Kurse zu Faltungsneuronalen Netzen und Objekterkennung an.