Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Boîte englobante

Découvrez comment les cadres de sélection définissent l'emplacement des objets dans la vision par ordinateur. Explorez les formats de coordonnées, les applications concrètes et l'utilisation Ultralytics .

Une boîte englobante est une région rectangulaire définie par un ensemble de coordonnées qui englobe un objet spécifique dans une image ou une image vidéo. Dans le domaine de la vision par ordinateur (CV), ces boîtes servent d' annotations fondamentales pour enseigner aux systèmes d'intelligence artificielle (IA) comment localiser et reconnaître des éléments distincts. Plutôt que de simplement classer une image entière comme « contenant une voiture », un cadre de sélection permet à un modèle de localiser avec précision l'emplacement exact et l'étendue spatiale de la voiture, en la séparant de l'arrière-plan et des autres entités. Cette capacité de localisation est essentielle pour les tâches de détection d'objets, dont l'objectif est d' identifier simultanément plusieurs objets avec une grande précision.

Concepts fondamentaux et coordonnées

Pour traiter efficacement les données visuelles, les modèles d'apprentissage automatique (ML) s'appuient sur des systèmes de coordonnées spécifiques pour représenter mathématiquement les cadres de sélection. Le format choisi dicte souvent la manière dont les données sont préparées pour l'entraînement du modèle et la manière dont le modèle génère ses prédictions.

  • Coordonnées XYXY: ce format définit un cadre à l'aide des valeurs absolues en pixels du coin supérieur gauche et du coin inférieur droit. Il est intuitif pour les outils de visualisation tels que OpenCV ou Matplotlib lorsqu'il s'agit de dessiner des rectangles directement sur des images.
  • Format XYWH: Courant dans les ensembles de données tels que COCO, cette méthode spécifie le point central de l'objet suivi de la largeur et de la hauteur de la boîte. Cette représentation est essentielle pour calculer les fonctions de perte pendant le processus d'apprentissage .
  • Coordonnées normalisées: Afin de garantir l'évolutivité entre des images de différentes résolutions, les coordonnées sont souvent mises à l'échelle dans une plage comprise entre 0 et 1. Cela permet aux modèles de mieux généraliser lors de l' analyse d'entrées de dimensions variables.

Applications concrètes

Les boîtes englobantes sont les éléments constitutifs d'innombrables solutions d'IA dans divers secteurs. En permettant une localisation précise , elles permettent aux systèmes d'interagir intelligemment avec le monde physique.

  • Véhicules autonomes: Les voitures autonomes utilisent des cadres de sélection pour detect track en temps réel track , les autres véhicules, les panneaux de signalisation et les obstacles. Cette perception spatiale est essentielle pour permettre aux systèmes de navigation et de sécurité de prendre des décisions en une fraction de seconde.
  • Analyse de vente au détail: dans les magasins intelligents, les cadres de sélection permettent de surveiller les stocks sur les étagères et track les interactions track avec les produits. Ces données peuvent automatiser le réapprovisionnement des stocks et fournir des informations sur le comportement des acheteurs sans comptage manuel.

Les boîtes englobantes en action

Lorsque vous utilisez des architectures modernes telles que YOLO26, le modèle prédit les boîtes englobantes ainsi qu'une étiquette de classe et un score de confiance. L'exemple suivant montre comment exécuter une inférence sur une image et accéder aux coordonnées du cadre de sélection à l'aide de la fonction ultralytics l'emballage.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Termes connexes et différenciation

Si les cadres de sélection sont la norme pour la détection générale, ils se distinguent des autres types d'annotation utilisés dans des tâches plus granulaires.

  • Segmentation d'instance: Contrairement à un cadre rectangulaire, la segmentation crée un masque au pixel près qui trace le contour exact d'un objet. Cela est utile lorsque la forme précise est plus importante que l'emplacement général.
  • Boîte englobante orientée (OBB): Les boîtes englobantes standard sont alignées sur les axes (rectangles verticaux). Les OBB peuvent pivoter pour s'adapter aux objets inclinés, tels que les navires sur les images satellites ou les colis sur un tapis roulant, offrant ainsi un ajustement plus précis et réduisant le bruit de fond.
  • Points clés: au lieu d'entourer un objet, les points clés identifient des repères spécifiques, tels que les articulations du corps humain pour l' estimation de la posture.

Outils d'annotation et de gestion

La création d'annotations de boîtes englobantes de haute qualité est une étape cruciale dans le pipeline ML. Ultralytics simplifie ce processus en proposant des outils pour l' annotation des données et la gestion des ensembles de données. Une annotation correcte permet aux modèles d'apprendre à distinguer les objets avec précision, minimisant ainsi les erreurs telles que le surajustement ou la confusion d'arrière-plan. Des techniques avancées telles que la suppression non maximale (NMS) sont utilisées lors de l'inférence pour affiner ces prédictions en supprimant les boîtes qui se chevauchent, garantissant ainsi que seule la détection la plus précise reste pour chaque objet.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant