Erfahren Sie, wie Ankerboxen eine ankerbasierte Objekterkennung, Prioritäten für Klassifizierung, Regression und NMS ermöglichen, mit Anwendungen im autonomen Fahren und im Einzelhandel.
Ankerboxen sind eine grundlegende Komponente in vielen ankerbasierten Objekterkennungsmodellen und dienen als vordefinierter Satz von Referenzboxen mit bestimmten Höhen und Breiten. Diese Boxen dienen als Vorannahmen über die mögliche Position und Größe von Objekten in einem Bild. Anstatt blind nach Objekten zu suchen, verwenden die Modelle diese Anker als Ausgangspunkte und sagen Versätze voraus, um ihre Position und Größe so zu verfeinern, dass sie den tatsächlichen Objekten entsprechen. Mit diesem Ansatz wird die komplexe Aufgabe der Objektlokalisierung in ein leichter zu bewältigendes Regressionsproblem umgewandelt, bei dem das Modell lernt, diese Vorlagen anzupassen, anstatt Boxen von Grund auf neu zu erstellen.
Der Kernmechanismus besteht darin, ein Bild mit einem dichten Gitter aus Ankerboxen an verschiedenen Positionen zu kacheln. An jeder Position werden mehrere Anker mit unterschiedlichen Maßstäben und Seitenverhältnissen verwendet, um sicherzustellen, dass Objekte verschiedener Formen und Größen effektiv erkannt werden können. Während des Modelltrainings extrahiert das Backbone des Detektors zunächst eine Merkmalskarte aus dem Eingabebild. Der Erkennungskopf verwendet dann diese Merkmale, um zwei Aufgaben für jede Ankerbox auszuführen:
Das Modell verwendet Metriken wie Intersection over Union (IoU), um zu bestimmen, welche Ankerboxen während des Trainings am besten zu den Objekten der Bodenwahrheit passen. Nach der Vorhersage wird ein Nachbearbeitungsschritt namens Non-Maximum Suppression (NMS) angewendet, um redundante und überlappende Boxen für dasselbe Objekt zu eliminieren.
Es ist wichtig, Ankerboxen von verwandten Begriffen in der Computer Vision zu unterscheiden:
Die strukturierte Herangehensweise von Ankerboxen macht sie in Szenarien, in denen Objekte vorhersehbare Formen und Größen haben, effektiv.
Diese Modelle werden in der Regel mit leistungsstarken Deep-Learning-Frameworks wie PyTorch und TensorFlow entwickelt. Um sich weiterzubilden, bieten Plattformen wie DeepLearning.AI umfassende Kurse zu den Grundlagen der Computer Vision an.