Une boîte de délimitation est un cadre rectangulaire utilisé en vision par ordinateur (VA) pour indiquer l'emplacement et l'étendue approximative d'un objet dans une image ou une trame vidéo. Généralement définies par les coordonnées de leurs coins supérieur gauche et inférieur droit (ou point central, largeur et hauteur), ces boîtes constituent une méthode simple mais efficace pour spécifier l'emplacement d'un objet et l'espace qu'il occupe. Les boîtes de délimitation sont des composants fondamentaux dans diverses tâches de CV, notamment la détection d'objets, le suivi d'objets et l'annotation d'images, formant la pierre angulaire de nombreux systèmes modernes d'intelligence artificielle (IA) et d'apprentissage machine (ML). Elles sont essentielles pour permettre aux machines de comprendre non seulement quels objets sont présents, mais aussi où ils se trouvent dans une scène visuelle.
Importance dans la détection d'objets
Les boîtes de délimitation sont cruciales pour la formation et l'évaluation des modèles de détection d'objets. Dans les tâches abordées par des modèles comme Ultralytics YOLOles boîtes englobantes servent de "vérité de terrain" pendant le processus de formation. Cela signifie qu'elles représentent l'emplacement et la taille corrects des objets dans les données d'apprentissage, apprenant ainsi au modèle à localiser précisément les objets. Ce processus commence souvent par une annotation minutieuse des données, où des humains ou des outils automatisés dessinent ces boîtes autour des objets dans les images, en utilisant fréquemment des plateformes comme CVAT ou en s'intégrant à des plateformes comme Ultralytics HUB pour la gestion des ensembles de données. Au cours de l'inférence, le modèle entraîné prédit les boîtes de délimitation autour des objets détectés, ainsi que les étiquettes de classe et les scores de confiance. Cette capacité de localisation est vitale pour les applications qui nécessitent non seulement l'identification des objets, mais aussi leur position exacte.
Concepts clés liés aux boîtes de délimitation
Plusieurs mesures et techniques sont étroitement associées à l'utilisation et à l'évaluation des boîtes de délimitation dans les modèles ML :
- Intersection sur l'Union (IoU): Une métrique utilisée pour mesurer le chevauchement entre la boîte de délimitation prédite et la boîte de délimitation de la vérité terrain. Elle quantifie la précision de la localisation.
- Suppression non maximale (NMS): Technique de post-traitement utilisée pour éliminer les boîtes de délimitation redondantes et se chevauchant pour un même objet, en ne conservant que la prédiction la plus sûre.
- Précision moyenne (mAP): Une métrique standard pour évaluer la performance des modèles de détection d'objets, considérant à la fois la précision de la classification et la précision de la localisation (souvent basée sur un seuil d'IoU). Voir les mesures de performance détaillées deYOLO .
- Boîtes d'ancrage: Boîtes prédéfinies de différentes tailles et rapports d'aspect utilisées dans certains détecteurs (comme les anciennes versions de YOLO ) pour aider à prédire plus efficacement les boîtes de délimitation. Les modèles plus récents, y compris YOLO11sont souvent dépourvus d'ancres, ce qui simplifie la tête de détection.
- Ensemble de données COCO: Un ensemble de données de détection d'objets, de segmentation et de sous-titrage à grande échelle largement utilisé pour l'évaluation comparative des modèles de détection d'objets. Ultralytics permet d'accéder facilement à COCO et à d'autres ensembles de données de détection.
Boîtes de délimitation et termes connexes
Alors que les boîtes de délimitation standard (alignées sur les axes) localisent les objets avec de simples rectangles, d'autres techniques de vision par ordinateur offrent différents niveaux de détail ou gèrent différents scénarios :
Applications dans le monde réel
Les boîtes de délimitation font partie intégrante de nombreuses applications pratiques de l'intelligence artificielle :
- Véhicules autonomes: Les voitures autonomes s'appuient fortement sur la détection d'objets pour identifier et localiser les piétons, les autres véhicules, les feux de signalisation et les obstacles à l'aide de boîtes englobantes. Cette conscience spatiale, souvent obtenue grâce à des modèles d'apprentissage profond, est essentielle pour une navigation et une prise de décision sûres. Des entreprises comme Waymo mettent largement en valeur cette technologie. Ultralytics offre un aperçu de l'IA dans les voitures autopilotées.
- Analytique du commerce de détail: Dans le commerce de détail, les boîtes englobantes aident à la gestion des stocks pilotée par l'IA en détectant les produits sur les étagères, en surveillant les niveaux de stock et en analysant le comportement des clients à travers l'interaction avec les étagères ou les schémas de circulation à pied(comptage d'objets).
- Sécurité et surveillance: Les boîtes de délimitation permettent aux systèmes de surveillance automatisés de détecter et de suivre les individus ou les objets d'intérêt en temps réel, en déclenchant des alertes en cas d'accès non autorisé ou d'activités suspectes. Ceci est fondamental pour les applications de construction telles que les systèmes d'alarme de sécurité.
- Analyse d'images médicales: Dans le domaine de la santé, les boîtes de délimitation aident les radiologues et les cliniciens en mettant en évidence les anomalies potentielles telles que les tumeurs ou les lésions dans les scanners (rayons X, tomodensitométrie, IRM), ce qui permet d'obtenir un diagnostic plus rapide et plus précis. Voir des exemples dans Radiologie : Intelligence artificielle et l'aperçu de l'analyse d'images médicales d'Ultralytics.
- Agriculture: Les boîtes englobantes sont utilisées dans l'agriculture de précision pour des tâches telles que l'identification des fruits à récolter(détection des fruits), la surveillance de la santé des cultures ou la détection des parasites.