Découvrez comment la détection de boîtes englobantes orientées (OBB) améliore la détection d'objets en identifiant précisément les objets pivotés dans les images à travers des applications du monde réel.

Découvrez comment la détection de boîtes englobantes orientées (OBB) améliore la détection d'objets en identifiant précisément les objets pivotés dans les images à travers des applications du monde réel.
Reconnaître des objets, quelle que soit leur disposition ou leur orientation, est naturel pour nous, en tant qu'humains. Qu'il s'agisse de voitures à une intersection ou de bateaux dans un port, nous pouvons facilement dire ce qu'ils sont et dans quelle direction ils pointent. Cependant, pour les systèmes d'intelligence artificielle (IA), ce n'est pas si simple.
Par exemple, la vision par ordinateur, une branche de l'IA axée sur la compréhension des images et des vidéos, permet des tâches telles que la détection d'objets, qui aide les machines à identifier et à localiser les objets dans une scène. La détection d'objets traditionnelle repose sur des boîtes englobantes alignées sur les axes pour dessiner des boîtes autour des objets. Ces boîtes ont des côtés droits et des angles droits fixes. Cette approche fonctionne bien lorsque les objets sont droits et pas trop proches les uns des autres.
Mais lorsque les objets sont inclinés, pivotés ou rapprochés, la détection d'objets traditionnelle a souvent du mal à les capturer avec précision. Pour gérer ces situations plus complexes, des techniques telles que la détection de boîtes englobantes orientées (OBB) ont été introduites. Contrairement aux boîtes englobantes standard, les OBB peuvent pivoter pour correspondre à l'angle et à la forme de l'objet, ce qui permet un ajustement plus précis.
Les modèles de vision par ordinateur comme Ultralytics YOLO11, qui prennent en charge la détection OBB, permettent un éventail d'applications en temps réel, en particulier dans les scénarios où l'orientation des objets est importante, comme la surveillance aérienne. Au-delà de cela, la détection OBB est également utilisée dans les domaines de la santé, de l'agriculture et de l'analyse de documents.
Dans cet article, nous explorerons ce qu'est la détection OBB, comment elle fonctionne et où elle est appliquée dans des scénarios réels. Commençons !
Un rectangle englobant orienté est un type de rectangle utilisé en vision par ordinateur pour représenter les objets détectés dans une image. Alors que les rectangles englobants standard sont alignés sur les axes horizontal et vertical de l'image, les OBB peuvent pivoter pour correspondre à l'angle réel de l'objet.
Cette capacité de rotation apporte plusieurs avantages. Les OBB peuvent s'aligner plus étroitement sur l'orientation d'un objet, ce qui permet à la boîte de s'adapter étroitement à la forme et à la direction de l'objet. Par conséquent, la détection devient plus précise et exacte.
Les OBB sont particulièrement utiles lorsque les objets ne sont pas parfaitement droits, comme une voiture qui tourne sur une route sinueuse dans des images aériennes, un livre incliné sur un bureau ou une tumeur pivotée dans un scan médical. En faisant correspondre plus précisément l'angle d'un objet, les OBB améliorent les performances de détection, réduisent les interférences de l'arrière-plan et sont particulièrement intéressantes pour les applications où l'orientation d'un objet est aussi importante que sa position.
La détection OBB et la détection d'objets traditionnelle peuvent sembler similaires au premier abord, mais elles sont utilisées de différentes manières et dans différentes situations. Examinons de plus près comment elles se comparent avec un exemple.
Les modèles de vision par ordinateur, comme YOLO11, peuvent être entraînés pour détecter et classer des objets dans diverses applications du monde réel, telles que l'inspection industrielle. Prenons l'exemple d'une chaîne de montage d'usine où différentes pièces de machines se déplacent le long d'un tapis roulant. Certaines pièces peuvent être placées proprement, mais d'autres peuvent être légèrement tournées, inclinées ou se chevaucher en raison des vibrations ou de la vitesse.
La détection d'objets traditionnelle utilise des boîtes rectangulaires verticales qui s'alignent sur les bords horizontaux et verticaux de l'image. Ainsi, lorsqu'une pièce est pivotée, la boîte peut ne pas s'adapter correctement - elle pourrait omettre une partie de l'objet ou inclure trop d'arrière-plan. Cela peut rendre les détections moins précises et plus difficiles pour le système à identifier la pièce avec confiance.
Maintenant, disons que vous utilisez plutôt la détection OBB. Dans ce cas, le modèle peut tracer une boîte qui pivote pour correspondre à l'angle exact de chaque pièce. Un engrenage incliné ou un composant angulaire sera étroitement enfermé par une boîte qui correspond à sa forme et à sa direction. Cela signifie une meilleure précision, moins d'erreurs et des résultats plus fiables, en particulier en ce qui concerne les cas d'utilisation tels que le contrôle qualité automatisé ou le tri robotisé.
Maintenant que nous avons une meilleure compréhension de ce qu'est la détection OBB, examinons certains des modèles d'IA de vision les plus largement utilisés qui la prennent en charge.
Plusieurs modèles avancés de vision par ordinateur ont été développés spécifiquement pour la détection d'objets pivotés ou inclinés. Parmi eux, les modèles Ultralytics YOLO sont particulièrement reconnus pour leurs capacités de détection OBB fiables et efficaces.
Les versions antérieures comme Ultralytics YOLOv5 étaient conçues pour la détection d'objets standard. Les itérations ultérieures, telles que Ultralytics YOLOv8 et le plus récent YOLO11, ont introduit la prise en charge native de la détection OBB. YOLO11, en particulier, offre une précision de pointe sans compromettre la vitesse, ce qui en fait une option percutante pour les applications en temps réel.
Les modèles YOLO11 OBB pré-entraînés, tels que YOLO11n-obb, sont entraînés sur des ensembles de données comme DOTAv1, qui se compose d'images aériennes annotées avec une gamme de classes d'objets comme des avions, des navires et des courts de tennis qui apparaissent à différents angles et orientations.
De plus, ces modèles sont disponibles en cinq tailles différentes, de nano (n-obb) à extra-large (x-obb), pour répondre aux différents besoins de performance. Cette polyvalence leur permet d'être appliqués dans divers secteurs - de la surveillance des infrastructures urbaines et de l'inspection des machines à la lecture de textes inclinés dans des documents numérisés.
Dans de nombreuses situations réelles, les objets que vous devez détecter peuvent être entièrement différents de ceux des jeux de données d'entraînement standard. Par exemple, des objets tels que des outils sur une chaîne de production, des emballages de produits ou des composants sur une carte de circuit imprimé peuvent être pivotés, placés de manière irrégulière ou avoir une forme différente.
Pour détecter avec précision ces objets personnalisés, en particulier lorsque l'orientation est importante, il est essentiel d'entraîner des modèles comme YOLO11 en utilisant vos propres images et étiquettes. Ce processus est connu sous le nom d'entraînement personnalisé.
Voici un aperçu plus détaillé du processus étape par étape pour l'entraînement de YOLO11 pour la détection OBB :
Les objets qui sont décentrés ou inclinés sont assez courants dans les scénarios réels. Examinons quelques exemples où la détection OBB fait une réelle différence en détectant avec précision ces objets.
La détection OBB peut faire progresser l'analyse d'images médicales en améliorant la précision. Les images médicales comprennent souvent des structures anatomiques telles que des tumeurs, des organes ou des os. Ces structures apparaissent souvent sous des formes irrégulières et des orientations variées. Étant donné que les OBB peuvent pivoter pour correspondre à l'angle d'un objet, elles offrent une localisation et une mesure plus précises, ce qui est essentiel pour le diagnostic et la planification du traitement.
Cette approche est particulièrement efficace lorsqu'il s'agit d'analyser des images radiographiques de fractures osseuses, où la position et l'alignement des os sont des facteurs clés. Par exemple, la détection OBB a été utilisée pour analyser les radiographies du coude d'enfants. En s'adaptant à l'orientation des os, elle a contribué à améliorer la précision de la détection.
La surveillance aérienne est un outil essentiel dans des secteurs tels que la sécurité publique, la surveillance environnementale et la planification urbaine. Les images capturées par des drones ou des satellites peuvent aider à identifier des objets tels que des navires, des véhicules et des bâtiments. Cependant, dans ces images, les objets apparaissent souvent petits et sous des angles inhabituels, ce qui les rend plus difficiles à détecter avec précision.
La détection OBB résout ce problème en inclinant les boîtes englobantes pour qu'elles correspondent à l'angle de chaque objet. Cela permet d'obtenir des mesures plus précises de la taille et de l'orientation d'un objet, ce qui favorise une meilleure prise de décision dans des domaines tels que l'urbanisme, la défense, la réponse aux catastrophes et la surveillance environnementale.
Un exemple intéressant de détection d'OBB est le suivi des navires dans la surveillance maritime. Les images satellites capturent souvent les navires sous différents angles et tailles en raison des conditions météorologiques, de l'éclairage ou du mouvement. Les OBB peuvent s'adapter à ces changements, améliorant ainsi la détection, en particulier pour les navires plus petits ou partiellement masqués.
Le tri des récoltes après la moisson est une étape cruciale pour garantir la qualité avant qu'elles ne soient emballées et envoyées au marché. Bien que de nombreux systèmes fonctionnent bien pour les fruits ronds comme les pommes et les oranges, les cultures longues et étroites, comme les carottes ou les pousses de Zizania, peuvent être beaucoup plus difficiles à manipuler. Leurs formes varient et elles se retrouvent souvent à des angles différents, ce qui les rend difficiles à détecter et à trier avec précision.
Pour résoudre ce problème, des chercheurs ont développé un système qui utilise la détection de boîtes englobantes orientées (OBB) pour identifier et évaluer ces cultures avec plus de précision. Le système peut détecter plusieurs cultures dans une même image, même si elles sont inclinées ou se chevauchent, et évaluer leur qualité et leur position en temps réel.
Voici quelques avantages de l'utilisation de la détection OBB :
Bien qu'elle contribue à améliorer la précision de la détection dans les scènes complexes, la détection OBB présente quelques limitations à prendre en compte :
La détection de boîtes englobantes orientées facilite la reconnaissance par les solutions de vision par ordinateur des objets qui ne sont pas parfaitement droits ou alignés. En capturant à la fois la position et l'orientation des objets, la détection OBB améliore la précision dans des cas d'utilisation réels tels que la numérisation d'images médicales, la surveillance des terres agricoles ou l'analyse de photos satellites.
Avec des modèles comme YOLO11 qui rendent la détection OBB plus accessible, elle devient un choix pratique pour de nombreux secteurs. Que vous ayez affaire à des objets inclinés, qui se chevauchent ou de formes irrégulières, la détection OBB ajoute une couche de précision que les méthodes standard manquent souvent.
L'IA vous intéresse ? Explorez notre dépôt GitHub, connectez-vous avec notre communauté et consultez nos options de licence pour démarrer votre projet de vision par ordinateur. Apprenez-en davantage sur les innovations telles que l'IA dans le commerce de détail et la vision par ordinateur dans le secteur de la logistique sur nos pages de solutions.