Boîte englobante
Découvrez comment les boîtes englobantes permettent la détection d'objets, l'IA et les systèmes d'apprentissage automatique. Explorez leur rôle dans les applications de vision par ordinateur !
Une boîte de délimitation est une région rectangulaire définie par des coordonnées qui isole une caractéristique ou un objet spécifique au sein d'une image ou d'une séquence vidéo.
d'une image ou d'une vidéo. Dans le domaine de la
vision par ordinateur, cette annotation sert d'unité
unité fondamentale pour la localisation d'entités distinctes, ce qui permet aux systèmes d'intelligence artificielle (IA) de
aux systèmes d'intelligence artificielle (IA) de
de "voir" où se trouve un élément plutôt que de simplement savoir qu'il existe dans la scène. Principalement utilisée dans les tâches de
détection d'objets, une boîte englobante délimite l'étendue
l'étendue spatiale d'une cible, telle qu'une voiture, une personne ou un produit, et est généralement associée à une étiquette de classe et à un score de confiance indiquant le degré de certitude du modèle.
de confiance indiquant la certitude du modèle.
Systèmes de coordonnées et formats
Pour permettre aux modèles d'apprentissage automatique de
traiter mathématiquement les données visuelles, les boîtes de délimitation sont représentées à l'aide de systèmes de coordonnées spécifiques. Le choix du format
dépend souvent des ensembles de données utilisés pour l'entraînement ou des exigences
ou des exigences spécifiques de l'architecture de détection.
-
XYXY (coordonnées des coins) : Ce format utilise les valeurs absolues des pixels du coin supérieur gauche ($x1,
y1$) et du coin inférieur droit ($x2, y2$). Il est très intuitif et fréquemment utilisé dans les bibliothèques de visualisation
comme Matplotlib pour dessiner des rectangles sur des images.
-
XYWH (Center-Size) : Popularisée par le jeu de données
COCO , cette représentation spécifie le point central de l'objet ($x_center, y_center$)
point central de l'objet ($x_center, y_center$) suivi de la largeur et de la hauteur de la boîte. Ce format est
crucial pour le calcul des fonctions de perte
l'apprentissage du modèle.
-
Coordonnées normalisées : Pour assurer
l 'extensibilité à travers différentes résolutions d'images,
sont souvent normalisées dans une plage comprise entre 0 et 1 par rapport aux dimensions de l'image. Cela permet aux modèles de
de mieux se généraliser lorsqu'ils traitent des données d'entrée de différentes tailles.
Types de boîtes englobantes
Si la boîte rectangulaire standard convient à de nombreux scénarios, les environnements réels complexes nécessitent parfois des formes plus spécialisées.
formes plus spécialisées.
-
Boîte englobante alignée sur l'axe (AABB) : Il s'agit des boîtes standard dont les bords sont parallèles aux axes de l'image (verticaux et horizontaux).
axes de l'image (vertical et horizontal). Elles sont efficaces en termes de calcul et constituent la sortie par défaut pour les modèles à grande vitesse tels que les modèles d'analyse de l'image et les modèles d'analyse de l'image.
à grande vitesse comme YOLO11.
-
Boîte de délimitation orientée (OBB) : Lorsque les objets sont tournés, minces ou serrés les uns contre les autres, comme des navires dans un port ou du texte dans un document, une boîte standard peut inclure trop de bruit de fond.
navires dans un port ou du texte dans un document, une boîte standard peut inclure trop de bruit de fond. Une
boîte de délimitation orientée comprend un paramètre d'angle supplémentaire,
permettant au rectangle de pivoter et de s'adapter étroitement à l'objet. Cette fonction est essentielle pour les tâches précises telles que l'analyse d'images satellites.
l'analyse d'images satellites.
Applications concrètes
Les boîtes englobantes constituent les éléments de base de systèmes décisionnels sophistiqués dans divers secteurs d'activité.
-
Véhicules autonomes : La technologie de conduite autonome s'appuie fortement sur les boîtes englobantes pour maintenir la
conscience de l'espace. En traçant des
autour des piétons, des feux de signalisation et des autres voitures, le système estime les distances et les trajectoires afin d'éviter les collisions.
les collisions. Pour en savoir plus, consultez notre aperçu de l
l'IA dans l'automobile.
-
Commerce de détail et gestion des stocks : Les magasins intelligents utilisent des boîtes englobantes pour track produits sur les étagères.
Les systèmes peuvent identifier les articles en rupture de stock ou automatiser les processus de paiement en localisant les produits dans un panier. Cela améliore l'efficacité et constitue un élément clé des systèmes modernes de gestion des stocks.
l'efficacité et constitue un élément clé des solutions modernes d'IA pour le commerce de détail.
l 'IA dans les solutions de vente au détail.
Boîte de délimitation et segmentation
Il est important de distinguer les boîtes de délimitation de la
segmentation d'images, car elles résolvent des niveaux
niveaux de granularité.
-
Boîte de délimitation : Fournit une localisation grossière. Elle vous indique approximativement où se trouve l'objet en l'entourant d'une boîte.
en l'entourant d'une boîte. Elle est plus rapide à annoter et moins coûteuse en termes de calcul pour l'inférence en temps réel.
l'inférence en temps réel.
-
Segmentation de l'instance : Crée un masque parfait en pixels qui décrit la forme exacte de l'objet.
Bien que plus précise, la segmentation est plus gourmande en ressources informatiques. Pour des applications telles que
l'analyse d'images médicales où les limites
la segmentation est souvent préférée aux simples boîtes englobantes.
Exemple pratique avec Python
L'extrait suivant montre comment utiliser la fonction ultralytics pour générer des boîtes de délimitation. Nous chargeons
un modèle pré-entraîné de YOLO11 et imprimer les données de coordonnées des objets détectés.
objets détectés.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
La précision de ces prédictions est généralement évaluée à l'aide d'une métrique appelée
Intersection sur Union (IoU), qui
qui mesure le chevauchement entre la boîte prédite et l'annotation de
la boîte prédite et l'annotation de vérité de terrain fournie par des étiqueteurs humains. Des scores élevés d'IoU
élevés indiquent que le modèle a correctement localisé l'objet.