Erfahren Sie, wie die Erkennung von orientierten Bounding Boxen (OBB) die Objekterkennung durch die präzise Identifizierung von gedrehten Objekten in Bildern in realen Anwendungen verbessert.

Erfahren Sie, wie die Erkennung von orientierten Bounding Boxen (OBB) die Objekterkennung durch die präzise Identifizierung von gedrehten Objekten in Bildern in realen Anwendungen verbessert.
Das Erkennen von Objekten, unabhängig davon, wie sie angeordnet sind oder in welche Richtung sie zeigen, ist für uns Menschen selbstverständlich. Ob es sich um Autos an einer Kreuzung oder um Boote in einem Hafen handelt, wir können leicht erkennen, was sie sind und in welche Richtung sie zeigen. Für Systeme der künstlichen Intelligenz (KI) ist das jedoch nicht so einfach.
Computer Vision, ein Zweig der künstlichen Intelligenz, der sich auf das Verstehen von Bildern und Videos konzentriert, ermöglicht beispielsweise Aufgaben wie die Objekterkennung, die Maschinen bei der Identifizierung und Lokalisierung von Objekten in einer Szene hilft. Die herkömmliche Objekterkennung stützt sich auf achsial ausgerichtete Begrenzungsrahmen (Bounding Boxes) zum Zeichnen von Kästen um Objekte. Diese Boxen haben gerade Seiten und feste rechte Winkel. Dieser Ansatz funktioniert gut, wenn die Objekte aufrecht stehen und nicht zu dicht beieinander.
Wenn Objekte jedoch gekippt, gedreht oder eng beieinander liegen, ist es für die herkömmliche Objekterkennung oft schwierig, sie genau zu erfassen. Um diese komplexeren Situationen zu bewältigen, wurden Techniken wie die orientierte Bounding-Box-Erkennung (OBB) eingeführt. Im Gegensatz zu standardmäßigen Begrenzungsrahmen können OBBs gedreht werden, um sich dem Winkel und der Form des Objekts anzupassen, was eine engere und genauere Anpassung ermöglicht.
Bildverarbeitungsmodelle wie Ultralytics YOLO11, die die OBB-Erkennung unterstützen, ermöglichen eine Reihe von Echtzeitanwendungen, insbesondere in Szenarien, in denen die Objektorientierung wichtig ist, wie z. B. bei der Luftüberwachung. Darüber hinaus wird die OBB-Erkennung auch im Gesundheitswesen, in der Landwirtschaft und bei der Dokumentenanalyse eingesetzt.
In diesem Artikel erfahren Sie, was OBB-Erkennung ist, wie sie funktioniert und wo sie in realen Szenarien eingesetzt wird. Legen wir los!
Ein orientierter Begrenzungskasten ist eine Art rechteckiger Kasten, der in der Computer Vision verwendet wird, um erkannte Objekte in einem Bild darzustellen. Während normale Bounding Boxen an den horizontalen und vertikalen Achsen des Bildes ausgerichtet sind, können OBBs gedreht werden, um dem tatsächlichen Winkel des Objekts zu entsprechen.
Diese Fähigkeit zum Drehen bringt mehrere Vorteile mit sich. OBBs können sich besser an der Ausrichtung eines Objekts orientieren, so dass sich der Kasten eng an die Form und Richtung des Objekts anschmiegt. Dadurch wird die Erkennung genauer und präziser.
OBBs sind besonders nützlich, wenn Objekte nicht perfekt aufrecht stehen, z. B. ein Auto, das auf einer kurvigen Straße in Luftaufnahmen abbiegt, ein gekipptes Buch auf einem Schreibtisch oder ein gedrehter Tumor in einem medizinischen Scan. Durch die genauere Anpassung an den Winkel eines Objekts verbessern OBBs die Erkennungsleistung, reduzieren Hintergrundstörungen und eignen sich besonders für Anwendungen, bei denen die Ausrichtung eines Objekts ebenso wichtig ist wie seine Position.
Die OBB-Erkennung und die herkömmliche Objekterkennung mögen auf den ersten Blick ähnlich aussehen, aber sie werden auf unterschiedliche Weise und für unterschiedliche Situationen verwendet. Schauen wir uns den Vergleich anhand eines Beispiels genauer an.
Computer-Vision-Modelle wie YOLO11 können trainiert werden, um Objekte in verschiedenen realen Anwendungen zu erkennen und zu klassifizieren, z. B. in der industriellen Inspektion. Stellen Sie sich ein Fließband in einer Fabrik vor, auf dem sich verschiedene Maschinenteile entlang eines Förderbands bewegen. Einige Teile könnten sauber platziert sein, aber andere könnten aufgrund von Vibrationen oder Geschwindigkeit leicht gedreht oder gekippt sein oder sich überlappen.
Bei der herkömmlichen Objekterkennung werden aufrechte, rechteckige Boxen verwendet, die sich an den horizontalen und vertikalen Kanten des Bildes orientieren. Wenn also ein Teil gedreht wird, passt der Rahmen möglicherweise nicht richtig - er könnte einen Teil des Objekts auslassen oder zu viel vom Hintergrund einschließen. Dies kann dazu führen, dass die Erkennungen ungenauer werden und es dem System schwerer fällt, das Teil sicher zu identifizieren.
Nehmen wir nun an, Sie verwenden stattdessen die OBB-Erkennung. In diesem Fall kann das Modell einen Kasten zeichnen, der sich so dreht, dass er dem exakten Winkel der einzelnen Teile entspricht. Ein gekipptes Zahnrad oder ein abgewinkeltes Bauteil wird eng von einem Kasten umschlossen, der zu seiner Form und Richtung passt. Das bedeutet mehr Präzision, weniger Fehler und zuverlässigere Ergebnisse, insbesondere in Anwendungsfällen wie der automatischen Qualitätskontrolle oder der Sortierung durch Roboter.
Nachdem wir nun besser verstanden haben, was OBB-Erkennung ist, wollen wir einen Blick auf einige der am weitesten verbreiteten Vision AI-Modelle werfen, die sie unterstützen.
Mehrere fortschrittliche Computer-Vision-Modelle wurden speziell für die Erkennung gedrehter oder gekippter Objekte entwickelt. Unter ihnen sind die Ultralytics YOLO-Modelle besonders bekannt für ihre zuverlässigen und effizienten OBB-Erkennungsfunktionen.
Frühere Versionen wie Ultralytics YOLOv5 waren für die Erkennung von Standardobjekten konzipiert. Spätere Versionen wie Ultralytics YOLOv8 und das neuere YOLO11 bieten native Unterstützung für die OBB-Erkennung. Insbesondere YOLO11 bietet modernste Genauigkeit ohne Geschwindigkeitseinbußen, was es zu einer wirkungsvollen Option für Echtzeitanwendungen macht.
Vortrainierte YOLO11 OBB-Modelle wie YOLO11n-obb werden auf Datensätzen wie DOTAv1 trainiert, die aus Luftbildern bestehen, die mit einer Reihe von Objektklassen wie Flugzeugen, Schiffen und Tennisplätzen versehen sind, die in verschiedenen Winkeln und Ausrichtungen erscheinen.
Außerdem sind diese Modelle in fünf verschiedenen Größen erhältlich, von nano (n-obb) bis extra-large (x-obb), um unterschiedlichen Leistungsanforderungen gerecht zu werden. Dank dieser Vielseitigkeit können sie in verschiedenen Branchen eingesetzt werden - von der Überwachung der städtischen Infrastruktur über die Inspektion von Maschinen bis hin zum Lesen von schiefem Text in gescannten Dokumenten.
In vielen realen Situationen können sich die zu erkennenden Objekte völlig von denen in Standard-Trainingsdatensätzen unterscheiden. Zum Beispiel können Objekte wie Werkzeuge in einer Produktionslinie, Produktverpackungen oder Komponenten auf einer Leiterplatte gedreht, unregelmäßig platziert oder anders geformt sein.
Um diese benutzerdefinierten Objekte genau zu erkennen, insbesondere wenn die Ausrichtung eine Rolle spielt, ist es wichtig, Modelle wie YOLO11 anhand Ihrer eigenen Bilder und Beschriftungen zu trainieren. Dieser Prozess wird als benutzerdefiniertes Training bezeichnet.
Hier ist ein genauerer Blick auf den Schritt-für-Schritt-Prozess für das Training von YOLO11 für die OBB-Erkennung:
Objekte, die außermittig oder geneigt sind, kommen in der Praxis häufig vor. Gehen wir ein paar Beispiele durch, bei denen die OBB-Erkennung einen echten Unterschied macht, indem sie diese Objekte genau erkennt.
Die OBB-Erkennung kann die medizinische Bildanalyse einen Schritt weiterbringen, indem sie die Präzision verbessert. Medizinische Bilder enthalten oft anatomische Strukturen wie Tumore, Organe oder Knochen. Diese Strukturen weisen oft unregelmäßige Formen und unterschiedliche Ausrichtungen auf. Da sich OBBs drehen können, um sich dem Winkel eines Objekts anzupassen, ermöglichen sie eine genauere Lokalisierung und Messung, was für die Diagnose und Behandlungsplanung entscheidend ist.
Dieser Ansatz ist besonders effektiv, wenn es um die Analyse von Röntgenbildern von Knochenbrüchen geht, bei denen die Position und Ausrichtung der Knochen entscheidende Faktoren sind. So wurde die OBB-Erkennung beispielsweise zur Analyse von Röntgenbildern des pädiatrischen Ellenbogens eingesetzt. Durch die Anpassung an die Ausrichtung der Knochen konnte die Erkennungsgenauigkeit verbessert werden.
Die Überwachung aus der Luft ist ein wichtiges Instrument in Bereichen wie der öffentlichen Sicherheit, der Umweltüberwachung und der Stadtplanung. Die von Drohnen oder Satelliten aufgenommenen Bilder können helfen, Objekte wie Schiffe, Fahrzeuge und Gebäude zu identifizieren. Allerdings erscheinen die Objekte auf diesen Bildern oft klein und in ungewöhnlichen Winkeln, was ihre genaue Erkennung erschwert.
Die OBB-Erkennung löst dieses Problem, indem sie die Bounding Boxen so neigt, dass sie mit dem Winkel des jeweiligen Objekts übereinstimmen. Dies führt zu genaueren Messungen der Größe und Ausrichtung eines Objekts und unterstützt eine bessere Entscheidungsfindung in Bereichen wie Stadtplanung, Verteidigung, Katastrophenschutz und Umweltüberwachung.
Ein interessantes Beispiel für die OBB-Erkennung ist die Schiffsverfolgung bei der Seeüberwachung. Auf Satellitenbildern werden Schiffe oft in unterschiedlichen Winkeln und Größen erfasst, was auf Wetter, Beleuchtung oder Bewegung zurückzuführen ist. OBBs können sich an diese Veränderungen anpassen und die Erkennung verbessern, insbesondere bei kleineren oder teilweise verdeckten Schiffen.
Das Sortieren von Pflanzen nach der Ernte ist ein wichtiger Schritt, um die Qualität zu gewährleisten, bevor sie verpackt und auf den Markt gebracht werden. Während viele Systeme für runde Früchte wie Äpfel und Orangen gut funktionieren, sind lange und schmale Pflanzen wie Karotten oder Zizania-Sprossen viel schwieriger zu handhaben. Sie haben unterschiedliche Formen und stehen oft in verschiedenen Winkeln, so dass es schwierig ist, sie genau zu erkennen und zu sortieren.
Um dieses Problem zu lösen, haben Forscher ein System entwickelt, das die Erkennung von orientierten Bounding Boxen (OBB) nutzt, um diese Pflanzen genauer zu identifizieren und zu bewerten. Das System kann mehrere Pflanzen in einem Bild erkennen, selbst wenn sie geneigt sind oder sich überlappen, und ihre Qualität und Position in Echtzeit bewerten.
Hier sind einige der Vorteile der OBB-Erkennung:
Obwohl die OBB-Erkennung die Erkennungsgenauigkeit in komplexen Szenen verbessert, gibt es einige Einschränkungen zu beachten:
Die Erkennung von Oriented Bounding Boxes (OBB) erleichtert Computer Vision-Lösungen die Erkennung von Objekten, die nicht perfekt gerade oder ausgerichtet sind. Da sowohl die Position als auch die Ausrichtung von Objekten erfasst werden, erhöht die OBB-Erkennung die Genauigkeit in realen Anwendungsfällen wie dem Scannen medizinischer Bilder, der Überwachung von Ackerland oder der Analyse von Satellitenfotos.
Mit Modellen wie YOLO11 wird die OBB-Erkennung für viele Branchen zu einer praktischen Wahl. Ganz gleich, ob Sie es mit geneigten, überlappenden oder seltsam geformten Objekten zu tun haben, die OBB-Erkennung bietet eine zusätzliche Präzisionsebene, die bei Standardmethoden oft fehlt.
Neugierig auf KI? Erkunden Sie unser GitHub-Repository, tauschen Sie sich mit unserer Community aus, und informieren Sie sich über unsere Lizenzierungsoptionen, um Ihr Computer-Vision-Projekt zu starten. Erfahren Sie mehr über Innovationen wie KI im Einzelhandel und Computer Vision in der Logistikbranche auf unseren Lösungsseiten.