Bounding Box
Erfahren Sie, wie Begrenzungsrahmen (Bounding Boxes) Objekterkennung, KI und Machine-Learning-Systeme ermöglichen. Entdecken Sie ihre Rolle in Computer-Vision-Anwendungen!
Ein Begrenzungsrahmen (Bounding Box) ist ein durch Koordinaten definierter rechteckiger Bereich, der ein bestimmtes Merkmal oder Objekt innerhalb eines Bildes oder Videobildes isoliert.
Bild oder Videobild isoliert. In der Welt der
Computer Vision dient diese Beschriftung als die
grundlegende Einheit zur Lokalisierung bestimmter Objekte und ermöglicht
künstliche Intelligenz (KI) Systeme zu
zu "sehen", wo sich ein Objekt befindet, anstatt nur zu wissen, dass es in der Szene existiert. Hauptsächlich verwendet in
Objekterkennungsaufgaben verwendet wird, umreißt eine Bounding Box
die räumliche Ausdehnung eines Zielobjekts - z. B. eines Autos, einer Person oder eines Produkts - und ist in der Regel mit einer Klassenbezeichnung und einem
Vertrauenswert, der die Sicherheit des Modells angibt.
Koordinatensysteme und Formate
Damit Modelle für maschinelles Lernen (ML)
visuelle Daten mathematisch zu verarbeiten, werden Bounding Boxes in bestimmten Koordinatensystemen dargestellt. Die Wahl des
Format hängt oft von den für das Training verwendeten Datensätzen oder den
spezifischen Anforderungen der Erkennungsarchitektur ab.
-
XYXY (Eckenkoordinaten): Dieses Format verwendet die absoluten Pixelwerte der linken oberen Ecke ($x1,
y1$) und der rechten unteren Ecke ($x2, y2$). Es ist sehr intuitiv und wird häufig in Visualisierungsbibliotheken
wie Matplotlib zum Zeichnen von Rechtecken über Bildern verwendet.
-
XYWH (Center-Size): Populär geworden durch den
COCO , diese Darstellung gibt den
Mittelpunkt des Objekts ($x_center, y_center$), gefolgt von der Breite und Höhe der Box. Dieses Format ist
entscheidend für die Berechnung von Verlustfunktionen während
Modelltraining.
-
Normalisierte Koordinaten: Um die Skalierbarkeit
Skalierbarkeit über verschiedene Bildauflösungen zu gewährleisten,
Koordinaten oft auf einen Bereich zwischen 0 und 1 relativ zu den Bildabmessungen normiert. Dadurch können die Modelle
bei der Verarbeitung von Eingaben unterschiedlicher Größe besser verallgemeinern.
Arten von Bounding Boxes
Während die rechteckige Standardbox für viele Szenarien geeignet ist, erfordern komplexe reale Umgebungen manchmal
spezielle Formen.
-
Achsenausgerichtete Bounding Box (AABB): Dies sind die Standardboxen, bei denen die Kanten parallel zu den
Bildachsen (vertikal und horizontal) verlaufen. Sie sind rechnerisch effizient und sind die Standardausgabe für Hochgeschwindigkeitsmodelle
Modelle wie YOLO11.
-
Oriented Bounding Box (OBB): Wenn Objekte gedreht, dünn oder dicht aneinander gepackt sind - wie z. B.
Schiffe in einem Hafen oder Text in einem Dokument - kann eine Standardbox zu viel Hintergrundrauschen enthalten. Eine
Oriented Bounding Box enthält einen zusätzlichen Winkelparameter,
mit dem das Rechteck gedreht und eng an das Objekt angepasst werden kann. Dies ist wichtig für präzise Aufgaben wie
Analyse von Satellitenbildern.
Anwendungsfälle in der Praxis
Bounding Boxes dienen als Bausteine für anspruchsvolle Entscheidungsfindungssysteme in verschiedenen Branchen.
-
Autonome Fahrzeuge: Die selbstfahrende Technologie stützt sich stark auf Bounding Boxes, um das
räumliches Bewusstsein. Durch das Zeichnen von
um Fußgänger, Ampeln und andere Fahrzeuge herum, schätzt das System Entfernungen und Flugbahnen, um
Kollisionen zu vermeiden. Weitere Informationen hierzu finden Sie in unserem Überblick über
KI im Automobilbereich.
-
Einzelhandel und Inventarverwaltung: Intelligente Geschäfte verwenden Bounding Boxes, um Produkte in den Regalen track .
Die Systeme können nicht vorrätige Artikel erkennen oder den Kassiervorgang automatisieren, indem sie die Produkte in einem Einkaufswagen lokalisieren. Diese
verbessert die Effizienz und ist eine Schlüsselkomponente von modernen
KI in Einzelhandelslösungen.
Bounding Box vs. Segmentierung
Es ist wichtig, zwischen Bounding Boxes und
Bildsegmentierung zu unterscheiden, da sie unterschiedliche
Ebenen der Granularität lösen.
-
Bounding Box: Liefert eine grobe Lokalisierung. Sie sagt Ihnen grob, wo sich das Objekt befindet, indem
in einen Kasten eingeschlossen wird. Sie ist schneller zu beschriften und rechnerisch günstiger für
Echtzeit-Inferenz.
-
Instanz-Segmentierung: Erzeugt eine pixelgenaue Maske, die die genaue Form des Objekts umreißt.
Die Segmentierung ist zwar präziser, aber auch rechenintensiver. Für Anwendungen wie
medizinischen Bildanalyse, bei der es auf exakte Tumor
Tumorgrenzen wichtig sind, wird die Segmentierung oft einfachen Bounding Boxes vorgezogen.
Praktisches Beispiel mit Python
Der folgende Ausschnitt zeigt, wie man die ultralytics Bibliothek, um Begrenzungsrahmen zu erzeugen. Wir laden
eine vortrainierte YOLO11 Modell und drucken die Koordinatendaten für
erkannte Objekte.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
Die Genauigkeit dieser Vorhersagen wird in der Regel anhand einer Metrik bewertet, die
Intersection over Union (IoU), die
die die Überlappung zwischen der vorhergesagten Box und der
und der von menschlichen Beschriftungsexperten gelieferten Grundwahrheit misst. Hohe IoU
Werte zeigen an, dass das Modell das Objekt korrekt lokalisiert hat.