Bounding Box
Apprends comment les boîtes englobantes (bounding boxes) définissent les emplacements des objets en vision par ordinateur. Explore les formats de coordonnées, les applications réelles et comment utiliser Ultralytics YOLO26.
Une boîte englobante est une région rectangulaire définie par un ensemble de coordonnées qui entoure un objet spécifique dans une image ou une séquence vidéo. Dans le domaine de la vision par ordinateur (CV), ces boîtes servent d'annotations fondamentales pour apprendre aux systèmes d'intelligence artificielle (IA) à localiser et à reconnaître des éléments distincts. Plutôt que de simplement classer une image entière comme « contenant une voiture », une boîte englobante permet à un modèle de localiser l'emplacement exact et l'étendue spatiale de la voiture, en la séparant de l'arrière-plan et d'autres entités. Cette capacité de localisation est essentielle pour les tâches de détection d'objets, où l'objectif est d'identifier plusieurs objets simultanément avec une grande précision.
Link to this sectionConcepts fondamentaux et coordonnées#
Pour traiter efficacement les données visuelles, les modèles d'apprentissage automatique (ML) s'appuient sur des systèmes de coordonnées spécifiques pour représenter mathématiquement les boîtes englobantes. Le format choisi détermine souvent la manière dont les données sont préparées pour l'entraînement du modèle et la façon dont le modèle produit ses prédictions.
- Coordonnées XYXY : Ce format définit une boîte en utilisant les valeurs de pixels absolues du coin supérieur gauche et du coin inférieur droit. Il est intuitif pour des outils de visualisation comme OpenCV ou Matplotlib lors du tracé de rectangles directement sur les images.
- Format XYWH : Courante dans des jeux de données comme COCO, cette méthode spécifie le point central de l'objet suivi de la largeur et de la hauteur de la boîte. Cette représentation est critique pour calculer les fonctions de perte pendant le processus d'apprentissage.
- Coordonnées normalisées : Pour assurer la scalabilité à travers des images de résolutions différentes, les coordonnées sont souvent mises à l'échelle sur une plage comprise entre 0 et 1. Cela aide les modèles à mieux généraliser lors de l'analyse d'entrées aux dimensions variables.
Link to this sectionApplications concrètes#
Les boîtes englobantes sont les éléments constitutifs d'innombrables solutions d'IA dans des secteurs variés. En permettant une localisation précise, elles permettent aux systèmes d'interagir intelligemment avec le monde physique.
- Véhicules autonomes : Les voitures autonomes utilisent des boîtes englobantes pour détecter et suivre les piétons, les autres véhicules, les panneaux de signalisation et les obstacles en temps réel. Cette conscience spatiale est cruciale pour que les systèmes de navigation et de sécurité prennent des décisions en une fraction de seconde.
- Analyse de vente au détail : Dans les magasins intelligents, les boîtes englobantes aident à surveiller l'inventaire en rayon et à suivre les interactions des clients avec les produits. Ces données peuvent automatiser le réapprovisionnement des stocks et fournir des informations sur le comportement des acheteurs sans comptage manuel.
Link to this sectionLes boîtes englobantes en action#
Lors de l'utilisation d'architectures modernes comme YOLO26, le modèle prédit des boîtes englobantes avec une étiquette de classe et un score de confiance. L'exemple suivant démontre comment effectuer une inférence sur une image et accéder aux coordonnées de la boîte englobante en utilisant le package ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionTermes associés et différenciation#
Bien que les boîtes englobantes soient standard pour la détection générale, elles se distinguent d'autres types d'annotations utilisés dans des tâches plus granulaires.
- Segmentation d'instance : Contrairement à une boîte englobante rectangulaire, la segmentation crée un masque pixel par pixel qui trace le contour exact d'un objet. Cela est utile lorsque la forme précise est plus importante que l'emplacement général.
- Boîte englobante orientée (OBB) : Les boîtes englobantes standard sont alignées sur les axes (rectangles verticaux). Les OBB peuvent pivoter pour s'adapter à des objets inclinés, tels que des navires dans l'imagerie satellite ou des colis sur un tapis roulant, offrant un ajustement plus serré et réduisant le bruit de fond.
- Points clés : Au lieu d'enfermer un objet, les points clés identifient des points de repère spécifiques, tels que les articulations sur un corps humain pour l'estimation de pose.
Link to this sectionOutils pour l'annotation et la gestion#
La création d'annotations de boîtes englobantes de haute qualité est une étape critique du pipeline ML. La plateforme Ultralytics simplifie ce processus en offrant des outils pour l'annotation de données et la gestion des jeux de données. Une annotation appropriée garantit que les modèles apprennent à distinguer les objets avec précision, minimisant les erreurs telles que le surapprentissage ou la confusion avec l'arrière-plan. Des techniques avancées comme la non-maximale suppression (NMS) sont utilisées pendant l'inférence pour affiner ces prédictions en supprimant les boîtes qui se chevauchent, garantissant que seule la détection la plus précise subsiste pour chaque objet.






