Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Bounding Box

Erfahren Sie, wie Begrenzungsrahmen (Bounding Boxes) Objekterkennung, KI und Machine-Learning-Systeme ermöglichen. Entdecken Sie ihre Rolle in Computer-Vision-Anwendungen!

Ein Begrenzungsrahmen (Bounding Box) ist ein durch Koordinaten definierter rechteckiger Bereich, der ein bestimmtes Merkmal oder Objekt innerhalb eines Bildes oder Videobildes isoliert. Bild oder Videobild isoliert. In der Welt der Computer Vision dient diese Beschriftung als die grundlegende Einheit zur Lokalisierung bestimmter Objekte und ermöglicht künstliche Intelligenz (KI) Systeme zu zu "sehen", wo sich ein Objekt befindet, anstatt nur zu wissen, dass es in der Szene existiert. Hauptsächlich verwendet in Objekterkennungsaufgaben verwendet wird, umreißt eine Bounding Box die räumliche Ausdehnung eines Zielobjekts - z. B. eines Autos, einer Person oder eines Produkts - und ist in der Regel mit einer Klassenbezeichnung und einem Vertrauenswert, der die Sicherheit des Modells angibt.

Koordinatensysteme und Formate

Damit Modelle für maschinelles Lernen (ML) visuelle Daten mathematisch zu verarbeiten, werden Bounding Boxes in bestimmten Koordinatensystemen dargestellt. Die Wahl des Format hängt oft von den für das Training verwendeten Datensätzen oder den spezifischen Anforderungen der Erkennungsarchitektur ab.

  • XYXY (Eckenkoordinaten): Dieses Format verwendet die absoluten Pixelwerte der linken oberen Ecke ($x1, y1$) und der rechten unteren Ecke ($x2, y2$). Es ist sehr intuitiv und wird häufig in Visualisierungsbibliotheken wie Matplotlib zum Zeichnen von Rechtecken über Bildern verwendet.
  • XYWH (Center-Size): Populär geworden durch den COCO , diese Darstellung gibt den Mittelpunkt des Objekts ($x_center, y_center$), gefolgt von der Breite und Höhe der Box. Dieses Format ist entscheidend für die Berechnung von Verlustfunktionen während Modelltraining.
  • Normalisierte Koordinaten: Um die Skalierbarkeit Skalierbarkeit über verschiedene Bildauflösungen zu gewährleisten, Koordinaten oft auf einen Bereich zwischen 0 und 1 relativ zu den Bildabmessungen normiert. Dadurch können die Modelle bei der Verarbeitung von Eingaben unterschiedlicher Größe besser verallgemeinern.

Arten von Bounding Boxes

Während die rechteckige Standardbox für viele Szenarien geeignet ist, erfordern komplexe reale Umgebungen manchmal spezielle Formen.

  • Achsenausgerichtete Bounding Box (AABB): Dies sind die Standardboxen, bei denen die Kanten parallel zu den Bildachsen (vertikal und horizontal) verlaufen. Sie sind rechnerisch effizient und sind die Standardausgabe für Hochgeschwindigkeitsmodelle Modelle wie YOLO11.
  • Oriented Bounding Box (OBB): Wenn Objekte gedreht, dünn oder dicht aneinander gepackt sind - wie z. B. Schiffe in einem Hafen oder Text in einem Dokument - kann eine Standardbox zu viel Hintergrundrauschen enthalten. Eine Oriented Bounding Box enthält einen zusätzlichen Winkelparameter, mit dem das Rechteck gedreht und eng an das Objekt angepasst werden kann. Dies ist wichtig für präzise Aufgaben wie Analyse von Satellitenbildern.

Anwendungsfälle in der Praxis

Bounding Boxes dienen als Bausteine für anspruchsvolle Entscheidungsfindungssysteme in verschiedenen Branchen.

  1. Autonome Fahrzeuge: Die selbstfahrende Technologie stützt sich stark auf Bounding Boxes, um das räumliches Bewusstsein. Durch das Zeichnen von um Fußgänger, Ampeln und andere Fahrzeuge herum, schätzt das System Entfernungen und Flugbahnen, um Kollisionen zu vermeiden. Weitere Informationen hierzu finden Sie in unserem Überblick über KI im Automobilbereich.
  2. Einzelhandel und Inventarverwaltung: Intelligente Geschäfte verwenden Bounding Boxes, um Produkte in den Regalen track . Die Systeme können nicht vorrätige Artikel erkennen oder den Kassiervorgang automatisieren, indem sie die Produkte in einem Einkaufswagen lokalisieren. Diese verbessert die Effizienz und ist eine Schlüsselkomponente von modernen KI in Einzelhandelslösungen.

Bounding Box vs. Segmentierung

Es ist wichtig, zwischen Bounding Boxes und Bildsegmentierung zu unterscheiden, da sie unterschiedliche Ebenen der Granularität lösen.

  • Bounding Box: Liefert eine grobe Lokalisierung. Sie sagt Ihnen grob, wo sich das Objekt befindet, indem in einen Kasten eingeschlossen wird. Sie ist schneller zu beschriften und rechnerisch günstiger für Echtzeit-Inferenz.
  • Instanz-Segmentierung: Erzeugt eine pixelgenaue Maske, die die genaue Form des Objekts umreißt. Die Segmentierung ist zwar präziser, aber auch rechenintensiver. Für Anwendungen wie medizinischen Bildanalyse, bei der es auf exakte Tumor Tumorgrenzen wichtig sind, wird die Segmentierung oft einfachen Bounding Boxes vorgezogen.

Praktisches Beispiel mit Python

Der folgende Ausschnitt zeigt, wie man die ultralytics Bibliothek, um Begrenzungsrahmen zu erzeugen. Wir laden eine vortrainierte YOLO11 Modell und drucken die Koordinatendaten für erkannte Objekte.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")

Die Genauigkeit dieser Vorhersagen wird in der Regel anhand einer Metrik bewertet, die Intersection over Union (IoU), die die die Überlappung zwischen der vorhergesagten Box und der und der von menschlichen Beschriftungsexperten gelieferten Grundwahrheit misst. Hohe IoU Werte zeigen an, dass das Modell das Objekt korrekt lokalisiert hat.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten