Erfahren Sie, wie die Erkennung von Oriented Bounding Boxes (OBB) die Objekterkennung verbessert, indem sie gedrehte Objekte in Bildern in realen Anwendungen präzise identifiziert.

Erfahren Sie, wie die Erkennung von Oriented Bounding Boxes (OBB) die Objekterkennung verbessert, indem sie gedrehte Objekte in Bildern in realen Anwendungen präzise identifiziert.
Objekte zu erkennen, unabhängig davon, wie sie angeordnet sind oder in welche Richtung sie zeigen, ist für uns Menschen ganz natürlich. Ob es sich um Autos an einer Kreuzung oder Boote in einem Hafen handelt, wir können leicht erkennen, was sie sind und in welche Richtung sie zeigen. Für Systeme der künstlichen Intelligenz (KI) ist das jedoch nicht so einfach.
Zum Beispiel ermöglicht Computer Vision, ein Zweig der KI, der sich auf das Verständnis von Bildern und Videos konzentriert, Aufgaben wie die Objekterkennung, die Maschinen hilft, Objekte innerhalb einer Szene zu identifizieren und zu lokalisieren. Die traditionelle Objekterkennung verwendet achsenparallele Bounding Boxes, um Objekte zu umrahmen. Diese Boxen haben gerade Seiten und feste rechte Winkel. Dieser Ansatz funktioniert gut, wenn Objekte aufrecht stehen und nicht zu nahe beieinander liegen.
Wenn Objekte jedoch geneigt, gedreht oder nahe beieinander liegen, hat die traditionelle Objekterkennung oft Schwierigkeiten, sie genau zu erfassen. Um diese komplexeren Situationen zu bewältigen, wurden Techniken wie die Oriented Bounding Box (OBB)-Erkennung eingeführt. Im Gegensatz zu Standard-Bounding-Boxes können OBBs gedreht werden, um sich an den Winkel und die Form des Objekts anzupassen, was eine engere und genauere Anpassung ermöglicht.
Computer-Vision-Modelle wie Ultralytics YOLO11, die die OBB-Erkennung unterstützen, ermöglichen eine Reihe von Echtzeitanwendungen, insbesondere in Szenarien, in denen die Ausrichtung von Objekten eine Rolle spielt, wie z. B. bei der Luftraumüberwachung. Darüber hinaus wird die OBB-Erkennung auch im Gesundheitswesen, in der Landwirtschaft und bei der Dokumentenanalyse eingesetzt.
In diesem Artikel werden wir untersuchen, was OBB-Erkennung ist, wie sie funktioniert und wo sie in realen Szenarien eingesetzt wird. Los geht's!
Eine orientierte Bounding Box ist eine Art rechteckige Box, die in der Computer Vision verwendet wird, um erkannte Objekte in einem Bild darzustellen. Während Standard-Bounding-Boxes an der horizontalen und vertikalen Achse des Bildes ausgerichtet sind, können OBBs gedreht werden, um sich an den tatsächlichen Winkel des Objekts anzupassen.
Diese Drehfähigkeit bringt mehrere Vorteile mit sich. OBBs können sich enger an der Ausrichtung eines Objekts ausrichten, sodass die Box eng um die Form und Richtung des Objekts passt. Dadurch wird die Erkennung genauer und präziser.
OBBs sind besonders nützlich, wenn Objekte nicht perfekt aufrecht stehen, wie z. B. ein Auto, das in Luftaufnahmen auf einer kurvigen Straße abbiegt, ein geneigtes Buch auf einem Schreibtisch oder ein gedrehter Tumor in einem medizinischen Scan. Durch die genauere Anpassung an den Winkel eines Objekts verbessern OBBs die Erkennungsleistung, reduzieren Hintergrundstörungen und eignen sich besonders gut für Anwendungen, bei denen die Ausrichtung eines Objekts genauso wichtig ist wie seine Position.
OBB-Erkennung und traditionelle Objekterkennung sehen auf den ersten Blick ähnlich aus, werden aber unterschiedlich und für unterschiedliche Situationen eingesetzt. Sehen wir uns anhand eines Beispiels genauer an, wie sie sich unterscheiden.
Computer-Vision-Modelle wie YOLO11 können trainiert werden, um Objekte in verschiedenen realen Anwendungen wie der industriellen Inspektion zu erkennen und zu klassifizieren. Betrachten Sie ein Fließband in einer Fabrik, auf dem sich verschiedene Maschinenteile bewegen. Einige Teile sind möglicherweise ordentlich platziert, andere sind aufgrund von Vibrationen oder Geschwindigkeit leicht gedreht, geneigt oder überlappen sich.
Die traditionelle Objekterkennung verwendet aufrechte, rechteckige Boxen, die an den horizontalen und vertikalen Kanten des Bildes ausgerichtet sind. Wenn also ein Teil gedreht wird, passt die Box möglicherweise nicht richtig - sie könnte einen Teil des Objekts auslassen oder zu viel vom Hintergrund einschließen. Dies kann die Erkennung weniger genau machen und es dem System erschweren, das Teil zuverlässig zu identifizieren.
Nehmen wir nun an, Sie verwenden stattdessen die OBB-Erkennung. In diesem Fall kann das Modell eine Box zeichnen, die sich dreht, um genau dem Winkel jedes Teils zu entsprechen. Ein geneigtes Zahnrad oder eine abgewinkelte Komponente wird von einer Box umschlossen, die zu ihrer Form und Richtung passt. Dies bedeutet eine bessere Präzision, weniger Fehler und zuverlässigere Ergebnisse, insbesondere in Bezug auf Anwendungsfälle wie die automatisierte Qualitätskontrolle oder die Robotersortierung.
Nachdem wir nun ein besseres Verständnis davon haben, was OBB-Erkennung ist, werfen wir einen Blick auf einige der am weitesten verbreiteten Vision-KI-Modelle, die sie unterstützen.
Es wurden mehrere fortschrittliche Computer-Vision-Modelle speziell für die Erkennung von gedrehten oder geneigten Objekten entwickelt. Unter ihnen sind die Ultralytics YOLO-Modelle besonders bekannt für ihre zuverlässigen und effizienten OBB-Erkennungsfunktionen.
Frühere Versionen wie Ultralytics YOLOv5 waren für die Standard-Objekterkennung konzipiert. Spätere Iterationen, wie Ultralytics YOLOv8 und das neuere YOLO11, führten native Unterstützung für die OBB-Erkennung ein. Insbesondere YOLO11 bietet modernste Genauigkeit ohne Kompromisse bei der Geschwindigkeit, was es zu einer wirkungsvollen Option für Echtzeitanwendungen macht.
Vortrainierte YOLO11 OBB-Modelle, wie z. B. YOLO11n-obb, werden auf Datensätzen wie DOTAv1 trainiert, der aus Luftaufnahmen besteht, die mit einer Reihe von Objektklassen wie Flugzeugen, Schiffen und Tennisplätzen versehen sind, die in verschiedenen Winkeln und Ausrichtungen erscheinen.
Außerdem sind diese Modelle in fünf verschiedenen Größen erhältlich, von Nano (n-obb) bis Extra-Large (x-obb), um unterschiedlichen Leistungsanforderungen gerecht zu werden. Diese Vielseitigkeit ermöglicht ihren Einsatz in verschiedenen Branchen - von der Überwachung städtischer Infrastruktur und der Inspektion von Maschinen bis hin zum Lesen von verzerrtem Text in gescannten Dokumenten.
In vielen realen Situationen können sich die Objekte, die Sie erkennen müssen, völlig von denen in Standard-Trainingsdatensätzen unterscheiden. Beispielsweise können Objekte wie Werkzeuge in einer Produktionslinie, Produktverpackungen oder Komponenten auf einer Leiterplatte gedreht, unregelmäßig platziert oder anders geformt sein.
Um diese benutzerdefinierten Objekte genau zu erkennen, insbesondere wenn die Ausrichtung wichtig ist, ist es wichtig, Modelle wie YOLO11 mit Ihren eigenen Bildern und Beschriftungen zu trainieren. Dieser Prozess wird als benutzerdefiniertes Training bezeichnet.
Hier ist ein genauerer Blick auf den schrittweisen Prozess für das Training von YOLO11 für die OBB-Erkennung:
Objekte, die nicht zentriert oder geneigt sind, kommen in realen Szenarien recht häufig vor. Lassen Sie uns einige Beispiele durchgehen, bei denen die OBB-Erkennung einen echten Unterschied macht, indem sie diese Objekte präzise erkennt.
Die OBB-Erkennung kann die medizinische Bildanalyse durch eine höhere Präzision noch verbessern. Medizinische Bilder enthalten oft anatomische Strukturen wie Tumore, Organe oder Knochen. Diese Strukturen weisen oft unregelmäßige Formen und unterschiedliche Ausrichtungen auf. Da sich OBBs drehen können, um sich dem Winkel eines Objekts anzupassen, ermöglichen sie eine genauere Lokalisierung und Messung, was für die Diagnose und Behandlungsplanung von entscheidender Bedeutung ist.
Dieser Ansatz ist besonders effektiv bei der Analyse von Röntgenbildern von Knochenbrüchen, bei denen die Position und Ausrichtung der Knochen Schlüsselfaktoren sind. Beispielsweise wurde die OBB-Erkennung zur Analyse von pädiatrischen Ellenbogen-Röntgenbildern verwendet. Durch die Anpassung an die Ausrichtung der Knochen konnte die Erkennungsgenauigkeit verbessert werden.
Die Luftüberwachung ist ein wichtiges Instrument in Sektoren wie öffentliche Sicherheit, Umweltüberwachung und Stadtplanung. Bilder, die von Drohnen oder Satelliten aufgenommen werden, können helfen, Objekte wie Schiffe, Fahrzeuge und Gebäude zu identifizieren. Auf diesen Bildern erscheinen Objekte jedoch oft klein und in ungewöhnlichen Winkeln, was es erschwert, sie genau zu erkennen.
Die OBB-Erkennung löst dies, indem sie die Bounding Boxes so neigt, dass sie mit dem Winkel jedes Objekts übereinstimmen. Dies führt zu genaueren Messungen der Größe und Ausrichtung eines Objekts und unterstützt eine bessere Entscheidungsfindung in Bereichen wie Stadtplanung, Verteidigung, Katastrophenschutz und Umweltüberwachung.
Ein interessantes Beispiel für die OBB-Erkennung ist die Schiffsverfolgung in der maritimen Überwachung. Satellitenbilder erfassen Schiffe oft in unterschiedlichen Winkeln und Größen aufgrund von Wetter, Beleuchtung oder Bewegung. OBBs können sich an diese Veränderungen anpassen und die Erkennung verbessern, insbesondere bei kleineren oder teilweise verdeckten Schiffen.
Das Sortieren von Feldfrüchten nach der Ernte ist ein entscheidender Schritt, um die Qualität zu gewährleisten, bevor sie verpackt und auf den Markt gebracht werden. Während viele Systeme für runde Früchte wie Äpfel und Orangen gut funktionieren, können lange und schmale Feldfrüchte wie Karotten oder Zizania-Sprossen viel schwieriger zu handhaben sein. Ihre Formen variieren, und sie liegen oft in unterschiedlichen Winkeln, was es schwierig macht, sie genau zu erkennen und zu sortieren.
Um dem entgegenzuwirken, haben Forschende ein System entwickelt, das auf der Erkennung von orientierten Bounding Boxes (OBB) basiert, um diese Feldfrüchte genauer zu identifizieren und zu bewerten. Das System kann mehrere Feldfrüchte in einem Bild erkennen, selbst wenn sie geneigt sind oder sich überlappen, und ihre Qualität und Position in Echtzeit beurteilen.
Hier sind einige der Vorteile der Verwendung von OBB-Erkennung:
Obwohl die OBB-Erkennung zur Verbesserung der Erkennungsgenauigkeit in komplexen Szenen beiträgt, sind einige Einschränkungen zu berücksichtigen:
Die Erkennung von orientierten Bounding Boxes erleichtert es Computer-Vision-Lösungen, Objekte zu erkennen, die nicht perfekt gerade oder ausgerichtet sind. Durch die Erfassung sowohl der Position als auch der Ausrichtung von Objekten erhöht die OBB-Erkennung die Genauigkeit in realen Anwendungsfällen wie dem Scannen medizinischer Bilder, der Überwachung von Ackerland oder der Analyse von Satellitenfotos.
Mit Modellen wie YOLO11, die die OBB-Erkennung zugänglicher machen, wird sie für viele Branchen zu einer praktischen Wahl. Ob Sie es mit geneigten, überlappenden oder unregelmäßig geformten Objekten zu tun haben, die OBB-Erkennung bietet eine zusätzliche Präzisionsebene, die Standardmethoden oft vermissen lassen.
Neugierig auf KI? Entdecken Sie unser GitHub-Repository, vernetzen Sie sich mit unserer Community und informieren Sie sich über unsere Lizenzoptionen, um Ihr Computer-Vision-Projekt zu starten. Erfahren Sie mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistik auf unseren Lösungsseiten.