Erfahren Sie, wie Begrenzungsrahmen die Positionen von Objekten in der Bildverarbeitung definieren. Entdecken Sie Koordinatenformate, reale Anwendungen und die Verwendung von Ultralytics .
Ein Begrenzungsrahmen ist ein rechteckiger Bereich, der durch eine Reihe von Koordinaten definiert ist und ein bestimmtes Objekt innerhalb eines Bildes oder Videoframes umschließt. Im Bereich der Computervision (CV) dienen diese Rahmen als grundlegende Anmerkungen, um künstliche Intelligenzsystemen (KI) beizubringen, wie sie bestimmte Objekte lokalisieren und erkennen können. Anstatt ein gesamtes Bild einfach als „ein Auto enthaltend” zu klassifizieren, ermöglicht ein Begrenzungsrahmen einem Modell, die genaue Position und räumliche Ausdehnung des Autos zu bestimmen und es vom Hintergrund und anderen Objekten zu trennen. Diese Lokalisierungsfähigkeit ist für Objekterkennungsaufgaben unerlässlich, bei denen das Ziel darin besteht, mehrere Objekte gleichzeitig mit hoher Präzision zu identifizieren.
Um visuelle Daten effektiv zu verarbeiten, stützen sich Machine-Learning-Modelle (ML) auf spezifische Koordinatensysteme, um Begrenzungsrahmen mathematisch darzustellen. Das gewählte Format bestimmt oft, wie Daten für das Modelltraining vorbereitet werden und wie das Modell seine Vorhersagen ausgibt.
Bounding Boxes sind die Bausteine für unzählige KI-Lösungen in verschiedenen Branchen. Durch die präzise Lokalisierung ermöglichen sie Systemen eine intelligente Interaktion mit der physischen Welt.
Bei der Verwendung moderner Architekturen wie YOLO26Das Modell
prognostiziert Begrenzungsrahmen zusammen mit einer Klassenbezeichnung und einer
KonfidenzniveauDas folgende Beispiel zeigt, wie
Sie eine Inferenz für ein Bild ausführen und auf die Koordinaten des Begrenzungsrahmens zugreifen können, indem Sie die ultralytics Paket.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
Rahmen sind zwar Standard für die allgemeine Erkennung, unterscheiden sich jedoch von anderen Anmerkungstypen, die bei detaillierteren Aufgaben verwendet werden .
Die Erstellung hochwertiger Bounding-Box-Annotationen ist ein entscheidender Schritt in der ML-Pipeline. Die Ultralytics vereinfacht diesen Prozess durch die Bereitstellung von Tools für die Datenannotation und die Verwaltung von Datensätzen. Durch eine korrekte Annotation wird sichergestellt, dass Modelle lernen, Objekte genau zu unterscheiden, wodurch Fehler wie Überanpassung oder Hintergrundverwirrung minimiert werden. Fortgeschrittene Techniken wie Non-Maximum Suppression (NMS) werden während der Inferenz verwendet, um diese Vorhersagen zu verfeinern, indem überlappende Boxen entfernt werden, sodass für jedes Objekt nur die genaueste Erkennung übrig bleibt.