Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Ankerboxen

Erfahren Sie, wie Ankerboxen eine ankerbasierte Objekterkennung, Prioritäten für Klassifizierung, Regression und NMS ermöglichen, mit Anwendungen im autonomen Fahren und im Einzelhandel.

Ankerboxen sind eine grundlegende Komponente in vielen ankerbasierten Objekterkennungsmodellen und dienen als vordefinierter Satz von Referenzboxen mit bestimmten Höhen und Breiten. Diese Boxen dienen als Vorannahmen über die mögliche Position und Größe von Objekten in einem Bild. Anstatt blind nach Objekten zu suchen, verwenden die Modelle diese Anker als Ausgangspunkte und sagen Versätze voraus, um ihre Position und Größe so zu verfeinern, dass sie den tatsächlichen Objekten entsprechen. Mit diesem Ansatz wird die komplexe Aufgabe der Objektlokalisierung in ein leichter zu bewältigendes Regressionsproblem umgewandelt, bei dem das Modell lernt, diese Vorlagen anzupassen, anstatt Boxen von Grund auf neu zu erstellen.

Wie Ankerboxen funktionieren

Der Kernmechanismus besteht darin, ein Bild mit einem dichten Gitter aus Ankerboxen an verschiedenen Positionen zu kacheln. An jeder Position werden mehrere Anker mit unterschiedlichen Maßstäben und Seitenverhältnissen verwendet, um sicherzustellen, dass Objekte verschiedener Formen und Größen effektiv erkannt werden können. Während des Modelltrainings extrahiert das Backbone des Detektors zunächst eine Merkmalskarte aus dem Eingabebild. Der Erkennungskopf verwendet dann diese Merkmale, um zwei Aufgaben für jede Ankerbox auszuführen:

  • Klassifizierung: Sie sagt die Wahrscheinlichkeit voraus, dass eine Ankerbox ein Objekt von Interesse enthält, und weist eine Klassenbezeichnung und einen Vertrauenswert zu.
  • Regression: Sie berechnet die genauen Anpassungen (oder Offsets), die erforderlich sind, um die Ankerbox in eine endgültige Boundingbox zu verwandeln, die das Objekt eng umschließt.

Das Modell verwendet Metriken wie Intersection over Union (IoU), um zu bestimmen, welche Ankerboxen während des Trainings am besten zu den Objekten der Bodenwahrheit passen. Nach der Vorhersage wird ein Nachbearbeitungsschritt namens Non-Maximum Suppression (NMS) angewendet, um redundante und überlappende Boxen für dasselbe Objekt zu eliminieren.

Ankerboxen vs. andere Konzepte

Es ist wichtig, Ankerboxen von verwandten Begriffen in der Computer Vision zu unterscheiden:

  • Begrenzungsrahmen (Bounding Box): Eine Ankerbox ist eine vordefinierte Vorlage, die während des Erkennungsprozesses verwendet wird, während eine Bounding Box die endgültige, verfeinerte Ausgabe ist, die ein erkanntes Objekt genau lokalisiert.
  • Anker-freie Detektoren: Während verankerungsbasierte Modelle wie YOLOv5 und die Faster R-CNN-Familie auf diesen Voreinstellungen beruhen, haben sich moderne Architekturen zunehmend auf verankerungsfreie Detektoren verlagert. Modelle wie Ultralytics YOLO11 sagen die Objektpositionen direkt durch die Identifizierung von Schlüsselpunkten oder Zentren voraus, was das Modelldesign vereinfacht und die Leistung bei Objekten mit unkonventionellen Formen verbessern kann. Lesen Sie mehr über die Vorteile eines verankerungsfreien Designs in YOLO11.

Anwendungsfälle in der Praxis

Die strukturierte Herangehensweise von Ankerboxen macht sie in Szenarien, in denen Objekte vorhersehbare Formen und Größen haben, effektiv.

  1. Autonomes Fahren: In Lösungen für die Automobilindustrie eignen sich ankerbasierte Detektoren hervorragend zur Erkennung von Autos, Fußgängern und Verkehrsschildern. Die relativ gleichmäßigen Seitenverhältnisse dieser Objekte passen gut zu den vordefinierten Ankern und ermöglichen eine zuverlässige Erkennung für Systeme, die von Unternehmen wie NVIDIA und Tesla entwickelt wurden.
  2. Einzelhandelsanalyse: Für die KI-gesteuerte Bestandsverwaltung können diese Modelle effizient Regale scannen, um Produkte zu zählen. Die einheitliche Größe und Form von verpackten Waren machen sie zu idealen Kandidaten für einen ankerbasierten Ansatz, der dabei hilft, die Bestandsüberwachung zu automatisieren und den manuellen Aufwand zu reduzieren.

Diese Modelle werden in der Regel mit leistungsstarken Deep-Learning-Frameworks wie PyTorch und TensorFlow entwickelt. Um sich weiterzubilden, bieten Plattformen wie DeepLearning.AI umfassende Kurse zu den Grundlagen der Computer Vision an.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert