Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Ankerboxen

Erfahren Sie, wie Ankerboxen eine ankerbasierte Objekterkennung, Prioritäten für Klassifizierung, Regression und NMS ermöglichen, mit Anwendungen im autonomen Fahren und im Einzelhandel.

Ankerboxen dienen als grundlegendes Konzept in der Architektur vieler Objekterkennungsmodellen und dienen als vordefinierte Referenzen für die Vorhersage der Position und Größe von Objekten. Anstatt ein Bild von Grund auf nach Objekten beliebiger Dimensionen zu scannen, verwendet das Modell diese festen Formen, die durch bestimmte Höhen und Breiten definiert sind, als Ausgangspunkte, oder Prioren. Dieser Ansatz vereinfacht den Lernprozess, indem er die schwierige Aufgabe der absoluten Koordinatenvorhersage Vorhersage absoluter Koordinaten in ein leichter zu bewältigendes Regressionsproblem umwandelt, bei dem das Netz lernt, diese Schablonen so anzupassen oder zu Schablonen so anzupassen, dass sie zu den Objekten der Bodenwahrheit passen. Diese Technik war ausschlaggebend für den Erfolg beliebter Architekturen wie der Faster R-CNN Familie und frühen einstufigen Detektoren.

Wie Ankerboxen funktionieren

Der Mechanismus der Ankerboxen besteht darin, das Eingabebild mit einem dichten Gitter von Zentren zu kacheln. In jeder Gitterzelle, mehrere Ankerboxen mit unterschiedlichen Seitenverhältnissen und Maßstäben erzeugt, um unterschiedlich geformte Objekte, wie z. B. große Fußgänger oder breite Fahrzeuge, abzubilden. Während der Trainingsphase des Modells gleicht das System diese Anker mit tatsächlichen Objekten anhand einer Metrik namens Schnittpunkt über Einheit (IoU). Verankerungen die sich signifikant mit einem Zielobjekt überschneiden, werden als positive Proben gekennzeichnet.

Das Rückgrat des Detektors extrahiert Merkmale aus dem Bild, die der Detektionskopf verwendet, um zwei zwei parallele Aufgaben für jeden positiven Anker ausführt:

  • Klassifizierung: Das Modell sagt die Wahrscheinlichkeit voraus, dass der Anker eine bestimmte Objektklasse enthält. Klasse enthält, und vergibt einen Vertrauenswert.
  • Box-Regression: Das Netz berechnet die genauen Koordinatenabweichungen, die für die Umformung des Ankers Anker in eine endgültige Bounding Box umzuformen, die das Objekt umschließt.

Um überlappende Vorhersagen für dasselbe Objekt zu behandeln, wird ein Nachbearbeitungsschritt, die so genannte Nicht-Maximum-Unterdrückung (NMS) überflüssige Boxen heraus und behält nur diejenige mit dem höchsten Vertrauen. Frameworks wie PyTorch und TensorFlow bieten die notwendigen Berechnungswerkzeuge, um diese komplexen Operationen effizient zu implementieren.

Verankerungen vs. verwandte Konzepte

Um Ankerboxen zu verstehen, muss man sie von ähnlichen Begriffen in der Computer Vision (CV).

  • Ankerboxen vs. Bounding Boxes: Eine Ankerbox ist eine theoretische, feste Vorlage, die als Hypothese während der Verarbeitung. Eine Bounding Box ist die endgültige, verfeinerte Ausgabe, die die Koordinaten des erkannten Objekts enthält.
  • Ankergestützt vs. ankerfrei: Traditionelle verankerungsbasierte Detektoren, wie YOLOv5verlassen sich auf diese manuellen Voreinstellungen. Im Gegensatz dazu sind moderne ankerfreie Detektoren, wie z. B. Ultralytics YOLO11die Vorhersage von Objektzentren oder Keypoints direkt vor. Diese Verschiebung vereinfacht das Modelldesign, da keine Abstimmung der Hyperparameter in Bezug auf die Ankerdimensionen mehr erforderlich ist. Dimensionen, was oft die Generalisierung von Datensätzen wie COCO.

Anwendungsfälle in der Praxis

Die strukturierte Natur der Ankerboxen macht sie besonders effektiv in Umgebungen, in denen die Objektformen konsistent und vorhersehbar sind.

  1. Autonomes Fahren: Die für autonome Fahrzeuge entwickelten Systeme autonome Fahrzeuge basieren auf der Erkennung Standardobjekte wie Autos, Lastwagen und Verkehrsschilder. Da diese Objekte relativ feste Seitenverhältnisse haben, können Ankerboxen so eingestellt werden, dass sie effizient erfasst werden. Unternehmen wie Waymo nutzen hochentwickelte Erkennungspipelines, um die Sicherheit in komplexen Verkehrsszenarien zu gewährleisten.
  2. Bestandsmanagement im Einzelhandel: Unter Einzelhandel überwachen Bildverarbeitungssysteme die Regale, um Lagerbestände detect . Verpackte Waren haben in der Regel eine einheitliche Form, so dass ankerbasierte Modelle die Artikel genau zählen und nicht vorrätige Produkte zu identifizieren. Diese Automatisierung unterstützt KI-gesteuerte Bestandsverwaltung und reduziert die manuelle Arbeit.

Code-Beispiel

Während moderne Modelle wie YOLO11 ohne Anker auskommen, werden in früheren Versionen wie YOLOv5 Ankerboxen verwendet. Die ultralytics Paket abstrahiert diese Komplexität, so dass die Benutzer die Inferenz ohne manuelle Anker zu konfigurieren. Das folgende Beispiel zeigt das Laden eines vortrainierten Modells zur detect Objekten:

from ultralytics import YOLO

# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")

# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected bounding boxes
results[0].show()

Für diejenigen, die sich für die mathematischen Grundlagen dieser Systeme interessieren, sind Bildungsplattformen wie Coursera und DeepLearning.AI bieten vertiefende Kurse zu Faltungsneuronalen Netzen und Objekterkennung an.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten