Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Bounding Box

Erfahren Sie, wie Begrenzungsrahmen die Positionen von Objekten in der Bildverarbeitung definieren. Entdecken Sie Koordinatenformate, reale Anwendungen und die Verwendung von Ultralytics .

Ein Begrenzungsrahmen ist ein rechteckiger Bereich, der durch eine Reihe von Koordinaten definiert ist und ein bestimmtes Objekt innerhalb eines Bildes oder Videoframes umschließt. Im Bereich der Computervision (CV) dienen diese Rahmen als grundlegende Anmerkungen, um künstliche Intelligenzsystemen (KI) beizubringen, wie sie bestimmte Objekte lokalisieren und erkennen können. Anstatt ein gesamtes Bild einfach als „ein Auto enthaltend” zu klassifizieren, ermöglicht ein Begrenzungsrahmen einem Modell, die genaue Position und räumliche Ausdehnung des Autos zu bestimmen und es vom Hintergrund und anderen Objekten zu trennen. Diese Lokalisierungsfähigkeit ist für Objekterkennungsaufgaben unerlässlich, bei denen das Ziel darin besteht, mehrere Objekte gleichzeitig mit hoher Präzision zu identifizieren.

Kernkonzepte und Koordinaten

Um visuelle Daten effektiv zu verarbeiten, stützen sich Machine-Learning-Modelle (ML) auf spezifische Koordinatensysteme, um Begrenzungsrahmen mathematisch darzustellen. Das gewählte Format bestimmt oft, wie Daten für das Modelltraining vorbereitet werden und wie das Modell seine Vorhersagen ausgibt.

  • XYXY-Koordinaten: Dieses Format definiert einen Rahmen anhand der absoluten Pixelwerte der oberen linken Ecke und der unteren rechten Ecke. Es ist intuitiv für Visualisierungstools wie OpenCV oder Matplotlib , wenn Rechtecke direkt auf Bilder gezeichnet werden.
  • XYWH-Format: Häufig in Datensätzen wie COCOverwendet, gibt diese Methode den Mittelpunkt des Objekts an, gefolgt von der Breite und Höhe des Kastens. Diese Darstellung ist entscheidend für die Berechnung von Verlustfunktionen während des Lernprozesses .
  • Normalisierte Koordinaten: Um die Skalierbarkeit über Bilder mit unterschiedlichen Auflösungen hinweg zu gewährleisten, werden Koordinaten häufig auf einen Bereich zwischen 0 und 1 skaliert. Dies hilft Modellen, besser zu generalisieren, wenn sie Eingaben mit unterschiedlichen Dimensionen analysieren.

Anwendungsfälle in der Praxis

Bounding Boxes sind die Bausteine für unzählige KI-Lösungen in verschiedenen Branchen. Durch die präzise Lokalisierung ermöglichen sie Systemen eine intelligente Interaktion mit der physischen Welt.

  • Autonome Fahrzeuge: Selbstfahrende Autos verwenden Begrenzungsrahmen, um track , andere Fahrzeuge, Verkehrszeichen und Hindernisse in Echtzeit detect track . Dieses räumliche Bewusstsein ist entscheidend für Navigations- und Sicherheitssysteme, um Entscheidungen in Sekundenbruchteilen zu treffen.
  • Retail Analytics: In Smart Stores helfen Bounding Boxes dabei, den Lagerbestand in den Regalen zu überwachen und die Interaktionen track mit den Produkten track . Diese Daten können die Nachbestückung automatisieren und Einblicke in das Kaufverhalten liefern, ohne dass manuell gezählt werden muss.

Begrenzungsrahmen in Aktion

Bei der Verwendung moderner Architekturen wie YOLO26Das Modell prognostiziert Begrenzungsrahmen zusammen mit einer Klassenbezeichnung und einer KonfidenzniveauDas folgende Beispiel zeigt, wie Sie eine Inferenz für ein Bild ausführen und auf die Koordinaten des Begrenzungsrahmens zugreifen können, indem Sie die ultralytics Paket.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Verwandte Begriffe und Unterscheidung

Rahmen sind zwar Standard für die allgemeine Erkennung, unterscheiden sich jedoch von anderen Anmerkungstypen, die bei detaillierteren Aufgaben verwendet werden .

  • Instanzsegmentierung: Im Gegensatz zu einem rechteckigen Begrenzungsrahmen erstellt die Segmentierung eine pixelgenaue Maske, die den genauen Umriss eines Objekts nachzeichnet. Dies ist nützlich, wenn die genaue Form wichtiger ist als die allgemeine Position.
  • Orientierte Begrenzungsrahmen (OBB): Standardmäßige Begrenzungsrahmen sind achsenausgerichtet (aufrechte Rechtecke). OBBs können gedreht werden, um sich an Objekte anzupassen, die abgewinkelt sind, wie z. B. Schiffe in Satellitenbildern oder Pakete auf einem Förderband. Dadurch passen sie sich besser an und reduzieren Hintergrundrauschen.
  • Schlüsselpunkte: Anstatt ein Objekt zu umschließen identifizieren Schlüsselpunkte bestimmte Orientierungspunkte, wie beispielsweise Gelenke am menschlichen Körper, um die Körperhaltung zu schätzen.

Tools für Annotation und Verwaltung

Die Erstellung hochwertiger Bounding-Box-Annotationen ist ein entscheidender Schritt in der ML-Pipeline. Die Ultralytics vereinfacht diesen Prozess durch die Bereitstellung von Tools für die Datenannotation und die Verwaltung von Datensätzen. Durch eine korrekte Annotation wird sichergestellt, dass Modelle lernen, Objekte genau zu unterscheiden, wodurch Fehler wie Überanpassung oder Hintergrundverwirrung minimiert werden. Fortgeschrittene Techniken wie Non-Maximum Suppression (NMS) werden während der Inferenz verwendet, um diese Vorhersagen zu verfeinern, indem überlappende Boxen entfernt werden, sodass für jedes Objekt nur die genaueste Erkennung übrig bleibt.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten