Boîte englobante
Découvrez comment les boîtes englobantes permettent la détection d'objets, l'IA et les systèmes d'apprentissage automatique. Explorez leur rôle dans les applications de vision par ordinateur !
Une boîte englobante est une région rectangulaire définie par des coordonnées qui isole une caractéristique ou un objet spécifique dans une
image ou une trame vidéo. Dans le domaine de la
vision par ordinateur (CV), cette annotation sert d'
unité fondamentale pour localiser des entités distinctes, permettant aux
systèmes d'intelligence artificielle (IA) de
« voir » où se trouve un élément plutôt que de simplement savoir qu'il existe dans la scène. Principalement utilisée dans les
tâches de détection d'objets, une boîte englobante délimite
l'étendue spatiale d'une cible, telle qu'une voiture, une personne ou un produit, et est généralement associée à une étiquette de classe et à un
score de confiance indiquant le degré de certitude du modèle.
Systèmes de coordonnées et formats
Pour permettre aux modèles d'apprentissage automatique de
traiter mathématiquement les données visuelles, les boîtes de délimitation sont représentées à l'aide de systèmes de coordonnées spécifiques. Le choix du format
dépend souvent des ensembles de données utilisés pour l'entraînement ou des exigences
ou des exigences spécifiques de l'architecture de détection.
-
Coordonnées XYXY: ce
format utilise les valeurs absolues en pixels du coin supérieur gauche ($x1, y1$) et du coin inférieur droit ($x2, y2$). Il
est très intuitif et fréquemment utilisé dans les bibliothèques de visualisation telles que
Matplotlib pour dessiner des rectangles sur des images.
-
Format XYWH:
Rendu populaire par COCO , ce
format spécifie le point central de l'objet ($x_center, y_center$) suivi de la largeur et de la hauteur de la
boîte. Ce format est essentiel pour calculer les
fonctions de perte pendant le
processus d'entraînement du modèle.
-
Coordonnées normalisées:
Afin de garantir l'évolutivité entre différentes résolutions d'image
, les coordonnées sont souvent normalisées dans une plage comprise entre 0 et 1 par rapport aux dimensions de l'image. Cela
permet aux modèles de mieux généraliser lors du traitement d'entrées de tailles variables.
Types de boîtes englobantes
Si la boîte rectangulaire standard convient à de nombreux cas de figure, les environnements complexes du monde réel nécessitent parfois des formes plus
spécialisées pour saisir avec précision les
données d'apprentissage.
-
Boîte englobante alignée sur l'axe (AABB) : il s'agit de boîtes standard dont les bords sont parallèles aux
axes de l'image (vertical et horizontal). Elles sont efficaces sur le plan informatique et constituent le résultat par défaut des modèles à grande vitesse
tels que YOLO26 et
YOLO11.
-
Boîte englobante orientée (OBB): lorsque les objets sont
pivotés, fins ou très rapprochés, comme les navires dans un port ou le texte dans un document, une boîte standard peut inclure
trop de bruit de fond. Une OBB comprend un paramètre d'angle supplémentaire, permettant au rectangle de pivoter et de s'adapter
parfaitement à l'objet. Ceci est essentiel pour des tâches précises telles que l'
analyse d'images satellites.
Boîte englobante et concepts connexes
Il est important de distinguer les cadres de sélection des autres techniques de localisation et des étapes intermédiaires de formation.
-
vs. Segmentation d'image: un
cadre de sélection fournit une localisation approximative, indiquant grossièrement où se trouve l'objet. En revanche, la segmentation
crée un masque au pixel près qui décrit la forme exacte. Si la segmentation est plus précise, les cadres de sélection sont
plus rapides à annoter et moins coûteux en termes de calcul pour l'
inférence en temps réel.
-
vs. Boîtes d'ancrage: Une boîte d'ancrage est
une « supposition » ou un modèle prédéfini utilisé pendant l'entraînement de certains détecteurs afin de stabiliser l'apprentissage. Le
rectangle de délimitation est le résultat final et affiné que le modèle prédit après avoir ajusté ces ancrages.
Applications concrètes
Les boîtes englobantes constituent les éléments de base de systèmes décisionnels sophistiqués dans divers secteurs d'activité.
-
Véhicules autonomes:
La technologie de conduite autonome repose largement sur les cadres de sélection pour maintenir la perception spatiale. En dessinant des cadres autour des
piétons, des feux de signalisation et des autres voitures, le système estime les distances et les trajectoires afin d'éviter les collisions.
Vous pouvez approfondir ce sujet dans notre présentation générale de l'
IA dans le secteur automobile.
-
Commerce de détail et gestion des stocks : Les magasins intelligents utilisent des boîtes englobantes pour track produits sur les étagères.
Les systèmes peuvent identifier les articles en rupture de stock ou automatiser les processus de paiement en localisant les produits dans un panier. Cela améliore l'efficacité et constitue un élément clé des systèmes modernes de gestion des stocks.
l'efficacité et constitue un élément clé des solutions modernes d'IA pour le commerce de détail.
l 'IA dans les solutions de vente au détail.
Exemple pratique avec Python
L'extrait suivant montre comment utiliser la fonction ultralytics pour générer des boîtes de délimitation. Nous chargeons
un modèle pré-entraîné de YOLO26 et imprimer les données de coordonnées des objets détectés.
objets détectés.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
# The '.cpu().numpy()' conversion ensures compatibility with standard Python types
box = results[0].boxes.xyxy[0].cpu().numpy()
print(f"Detected Box Coordinates: {box}")
La précision de ces prédictions est généralement évaluée à l'aide d'une métrique appelée
Intersection over Union (IoU), qui
mesure le chevauchement entre la boîte prédite et l'
annotation de vérité terrain fournie par des étiqueteurs humains. Des scores IoU
élevés
indiquent que le modèle a correctement localisé l'objet, un facteur crucial dans l'
évaluation du modèle.