Glossar

Bounding Box

Erfahren Sie, wie Bounding Boxes die Objekterkennung, KI und maschinelle Lernsysteme ermöglichen. Erforschen Sie ihre Rolle in Computer-Vision-Anwendungen!

Ein Begrenzungsrahmen (Bounding Box) ist eine rechteckige Beschriftung, die in der Computer Vision verwendet wird, um die Position eines Objekts innerhalb eines Bildes oder Videobildes anzugeben. Sie ist ein grundlegender Bestandteil der Objekterkennung und bietet eine einfache, aber effektive Möglichkeit, die Position und den Maßstab eines Objekts zu definieren. Beim maschinellen Lernen werden Modelle auf großen Datensätzen von Bildern mit beschrifteten Bounding Boxes trainiert, um zu lernen, wie sie Objekte selbständig identifizieren und lokalisieren können. Die Ausgabe dieser Modelle umfasst die Koordinaten der Box, eine Klassenbezeichnung (z. B. "Auto", "Person") und einen Vertrauenswert, der angibt, wie sicher das Modell in seiner Vorhersage ist.

Wie Bounding Boxes funktionieren

Ein Begrenzungsrahmen wird in der Regel durch einen Satz von Koordinaten definiert, die seine Position und Größe angeben. Die gebräuchlichsten Darstellungen sind:

  • Koordinaten oben links mit Breite und Höhe (x, y, w, h): Dieses Format gibt die x- und y-Koordinaten der linken oberen Ecke zusammen mit der Breite und Höhe des Kastens an.
  • Eckpunkte (x_min, y_min, x_max, y_max): Dieses Format definiert die Koordinaten der oberen linken und unteren rechten Ecke des Rechtecks.

Diese Koordinaten werden verwendet, um Deep-Learning-Modelle zu trainieren, die lernen, diese Werte für neue, ungesehene Bilder vorherzusagen. Die Genauigkeit eines vorhergesagten Begrenzungsrahmens wird häufig anhand einer Metrik namens Intersection over Union (IoU) bewertet, die die Überlappung zwischen dem vorhergesagten Rahmen und dem tatsächlichen Rahmen misst. Moderne Objekterkennungsmodelle, wie Ultralytics YOLO11, sind hochgradig optimiert, um präzise Bounding Boxes in Echtzeit zu erzeugen.

Arten von Bounding Boxes

Es gibt zwei Haupttypen von Begrenzungsrahmen:

  1. Achsenausgerichtete Bounding Box: Dies ist der häufigste Typ, bei dem die Seiten des Rechtecks an den horizontalen und vertikalen Achsen des Bildes ausgerichtet sind. Sie sind einfach darzustellen und zu verarbeiten, können aber bei Objekten, die gedreht oder unregelmäßig geformt sind, ineffizient sein, da die Box einen erheblichen Hintergrundbereich enthalten kann.
  2. Orientierte Bounding Box (OBB): Diese Art von Box enthält einen zusätzlichen Parameter für die Drehung, wodurch sie sich besser an geneigte Objekte anpassen lässt. OBBs sind besonders nützlich bei speziellen Anwendungen wie der Analyse von Satellitenbildern oder Luftaufnahmen von Drohnen, bei denen Objekte oft aus verschiedenen Winkeln betrachtet werden. Modelle wie YOLO11 unterstützen die orientierte Objekterkennung, um diese Szenarien effektiver zu handhaben.

Beziehung zu anderen Konzepten

Bounding Boxes sind eng mit anderen Bildverarbeitungsaufgaben verwandt, erfüllen aber einen anderen Zweck.

  • Objekterkennung vs. Bildsegmentierung: Während bei der Objekterkennung Bounding Boxes zur Lokalisierung von Objekten verwendet werden, bietet die Bildsegmentierung ein detaillierteres Verständnis der Form eines Objekts. Die Instanzsegmentierung geht beispielsweise einen Schritt weiter, indem sie die genaue Grenze jedes einzelnen Objekts auf Pixelebene festlegt, anstatt nur ein Rechteck um das Objekt zu zeichnen. Dies ist nützlich für Anwendungen, die präzise Forminformationen erfordern. Weitere Informationen finden Sie in diesem Leitfaden zur Instanzsegmentierung.
  • Bounding Box vs. Ankerbox: Bei einigen Objekterkennungsmodellen, den so genannten ankerbasierten Detektoren, werden vordefinierte Boxen, so genannte "Ankerboxen", als Referenzen verwendet, um dem Modell bei der Vorhersage der endgültigen Bounding Box zu helfen. Im Gegensatz dazu sagen verankerungsfreie Detektoren Bounding Boxes direkt ohne diese Voreinstellungen voraus, was die Modellarchitektur oft vereinfacht.

Anwendungen in realen Szenarien

Bounding Boxes sind Bestandteil zahlreicher praktischer KI-Anwendungen:

  1. Autonome Fahrzeuge: Selbstfahrende Autos sind in hohem Maße auf die Objekterkennung angewiesen, um Fußgänger, andere Fahrzeuge und Ampeln mithilfe von Bounding Boxes zu erkennen und zu lokalisieren. Dieses räumliche Bewusstsein, das oft durch Deep-Learning-Modelle erreicht wird, ist für eine sichere Navigation entscheidend. Unternehmen wie Waymo setzen diese Technologie ausgiebig ein. Ultralytics bietet Einblicke in die KI in selbstfahrenden Autos.
  2. Analytik im Einzelhandel: Im Einzelhandel helfen Bounding Boxes bei der KI-gesteuerten Bestandsverwaltung, indem sie Produkte in den Regalen erkennen, die Lagerbestände überwachen und das Kundenverhalten anhand von Laufmustern analysieren(Objektzählung).
  3. Sicherheit und Überwachung: Bounding Boxes ermöglichen es automatischen Überwachungssystemen, Personen oder Objekte in Echtzeit zu erkennen und zu verfolgen und bei verdächtigen Aktivitäten einen Alarm auszulösen. Dies ist für Gebäudeanwendungen wie Sicherheitsalarmsysteme von grundlegender Bedeutung.
  4. Medizinische Bildanalyse: Im Gesundheitswesen helfen Bounding Boxes den Ärzten, indem sie potenzielle Anomalien wie Tumore in Scans hervorheben und so zu einer schnelleren Diagnose beitragen. Beispiele hierfür finden Sie in der Radiologie: Forschung zur künstlichen Intelligenz und auf unserer Seite zur medizinischen Bildanalyse.
  5. Landwirtschaft: Bounding Boxes werden in der Präzisionslandwirtschaft für Aufgaben wie die Identifizierung von Früchten für die Ernte, die Überwachung der Pflanzengesundheit oder die Erkennung von Schädlingen verwendet, wie in unserem Blog über Computer Vision in der Landwirtschaft beschrieben.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert