Boîte englobante
Découvrez comment les boîtes englobantes permettent la détection d'objets, l'IA et les systèmes d'apprentissage automatique. Explorez leur rôle dans les applications de vision par ordinateur !
Une boîte englobante est une annotation rectangulaire utilisée en vision par ordinateur pour indiquer l'emplacement d'un objet dans une image ou une trame vidéo. Elle sert de composant fondamental de la détection d'objets, fournissant un moyen simple mais efficace de définir la position et l'échelle d'un objet. En apprentissage automatique, les modèles sont entraînés sur de grands ensembles de données d'images avec des boîtes englobantes étiquetées pour apprendre à identifier et à localiser des objets par eux-mêmes. La sortie de ces modèles comprend les coordonnées de la boîte, une étiquette de classe (par exemple, "voiture", "personne") et un score de confiance indiquant la certitude du modèle dans sa prédiction.
Comment fonctionnent les boîtes englobantes
Une boîte englobante est généralement définie par un ensemble de coordonnées qui spécifient sa position et sa taille. Les représentations les plus courantes sont :
- Coordonnées du coin supérieur gauche avec largeur et hauteur (x, y, l, h) : Ce format spécifie les coordonnées x et y du coin supérieur gauche, ainsi que la largeur et la hauteur de la boîte.
- Points d'angle (x_min, y_min, x_max, y_max) : Ce format définit les coordonnées des coins supérieur gauche et inférieur droit du rectangle.
Ces coordonnées sont utilisées pour entraîner des modèles de deep learning, qui apprennent à prédire ces valeurs pour de nouvelles images non vues. La précision d'une boîte englobante prédite est souvent évaluée à l'aide d'une métrique appelée Intersection over Union (IoU), qui mesure le chevauchement entre la boîte prédite et la boîte de vérité terrain. Les modèles modernes de détection d'objets, tels que Ultralytics YOLO11, sont hautement optimisés pour générer des boîtes englobantes précises en temps réel.
Types de boîtes englobantes
Il existe deux principaux types de boîtes englobantes :
- Boîte englobante alignée sur les axes : C'est le type le plus courant, où les côtés du rectangle sont alignés avec les axes horizontal et vertical de l'image. Elles sont simples à représenter et à traiter, mais peuvent être inefficaces pour les objets qui sont pivotés ou de forme irrégulière, car la boîte peut inclure une zone d'arrière-plan importante.
- Boîte englobante orientée (OBB) : Ce type de boîte inclut un paramètre supplémentaire pour la rotation, ce qui lui permet de s'adapter plus étroitement aux objets inclinés. Les OBB sont particulièrement utiles dans des applications spécialisées telles que l'analyse d'images satellite ou l'imagerie aérienne provenant de drones, où les objets sont souvent vus sous différents angles. Les modèles comme YOLO11 prennent en charge la détection d'objets orientés pour traiter ces scénarios plus efficacement.
Relation avec d'autres concepts
Les boîtes englobantes sont étroitement liées à d'autres tâches de vision par ordinateur, mais servent un objectif distinct.
- Détection d'objets vs. Segmentation d'image : Alors que la détection d'objets utilise des boîtes englobantes pour localiser les objets, la segmentation d'image offre une compréhension plus détaillée de la forme d'un objet. La segmentation d'instance, par exemple, va encore plus loin en délimitant la limite exacte au niveau des pixels de chaque objet distinct, plutôt que de simplement dessiner un rectangle autour de celui-ci. Ceci est utile pour les applications nécessitant des informations précises sur la forme. Plus d'informations peuvent être trouvées dans ce guide de la segmentation d'instance.
- Boîte englobante vs. Boîte d'ancrage : Dans certains modèles de détection d'objets, appelés détecteurs basés sur l'ancrage, des boîtes prédéfinies appelées « boîtes d'ancrage » sont utilisées comme références pour aider le modèle à prédire la boîte englobante finale. En revanche, les détecteurs sans ancrage prédisent les boîtes englobantes directement sans ces préréglages, ce qui simplifie souvent l'architecture du modèle.
Applications dans des scénarios réels
Les boîtes englobantes font partie intégrante de nombreuses applications pratiques de l'IA :
- Véhicules autonomes : Les voitures autonomes reposent fortement sur la détection d'objets pour identifier et localiser les piétons, les autres véhicules, les feux de circulation et les obstacles à l'aide de boîtes englobantes. Cette conscience spatiale, souvent réalisée grâce à des modèles d'apprentissage profond, est essentielle pour une navigation et une prise de décision sûres. Des entreprises comme Waymo présentent largement cette technologie. Ultralytics offre des informations sur l'IA dans les voitures autonomes.
- Analyse de vente au détail : Dans le commerce de détail, les boîtes englobantes aident à la gestion des stocks basée sur l'IA en détectant les produits sur les étagères, en surveillant les niveaux de stock et en analysant le comportement des clients grâce aux schémas de fréquentation (comptage d'objets).
- Sécurité et surveillance : Les boîtes englobantes permettent aux systèmes de surveillance automatisés de détecter et de suivre des individus ou des objets en temps réel, déclenchant des alertes en cas d'activités suspectes. Ceci est fondamental pour la construction d'applications telles que les systèmes d'alarme de sécurité.
- Analyse d'images médicales : Dans le domaine de la santé, les boîtes englobantes aident les cliniciens en mettant en évidence les anomalies potentielles comme les tumeurs dans les images, ce qui facilite un diagnostic plus rapide. Vous pouvez en voir des exemples dans la recherche en radiologie : intelligence artificielle et sur notre page d'analyse d'images médicales.
- Agriculture : Les boîtes englobantes sont utilisées dans l'agriculture de précision pour des tâches telles que l'identification des fruits pour la récolte, la surveillance de la santé des cultures ou la détection des parasites, comme indiqué dans notre blog sur la vision par ordinateur dans l'agriculture.