Découvrez comment les cadres de sélection définissent l'emplacement des objets dans la vision par ordinateur. Explorez les formats de coordonnées, les applications concrètes et l'utilisation Ultralytics .
Une boîte englobante est une région rectangulaire définie par un ensemble de coordonnées qui englobe un objet spécifique dans une image ou une image vidéo. Dans le domaine de la vision par ordinateur (CV), ces boîtes servent d' annotations fondamentales pour enseigner aux systèmes d'intelligence artificielle (IA) comment localiser et reconnaître des éléments distincts. Plutôt que de simplement classer une image entière comme « contenant une voiture », un cadre de sélection permet à un modèle de localiser avec précision l'emplacement exact et l'étendue spatiale de la voiture, en la séparant de l'arrière-plan et des autres entités. Cette capacité de localisation est essentielle pour les tâches de détection d'objets, dont l'objectif est d' identifier simultanément plusieurs objets avec une grande précision.
Pour traiter efficacement les données visuelles, les modèles d'apprentissage automatique (ML) s'appuient sur des systèmes de coordonnées spécifiques pour représenter mathématiquement les cadres de sélection. Le format choisi dicte souvent la manière dont les données sont préparées pour l'entraînement du modèle et la manière dont le modèle génère ses prédictions.
Les boîtes englobantes sont les éléments constitutifs d'innombrables solutions d'IA dans divers secteurs. En permettant une localisation précise , elles permettent aux systèmes d'interagir intelligemment avec le monde physique.
Lorsque vous utilisez des architectures modernes telles que YOLO26, le modèle
prédit les boîtes englobantes ainsi qu'une étiquette de classe et un
score de confiance. L'exemple suivant montre comment
exécuter une inférence sur une image et accéder aux coordonnées du cadre de sélection à l'aide de la fonction ultralytics l'emballage.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
Si les cadres de sélection sont la norme pour la détection générale, ils se distinguent des autres types d'annotation utilisés dans des tâches plus granulaires.
La création d'annotations de boîtes englobantes de haute qualité est une étape cruciale dans le pipeline ML. Ultralytics simplifie ce processus en proposant des outils pour l' annotation des données et la gestion des ensembles de données. Une annotation correcte permet aux modèles d'apprendre à distinguer les objets avec précision, minimisant ainsi les erreurs telles que le surajustement ou la confusion d'arrière-plan. Des techniques avancées telles que la suppression non maximale (NMS) sont utilisées lors de l'inférence pour affiner ces prédictions en supprimant les boîtes qui se chevauchent, garantissant ainsi que seule la détection la plus précise reste pour chaque objet.