Découvrez ce qu'est l'intersection sur l'union (IoU), comment elle est calculée et son rôle essentiel dans la détection des objets et l'évaluation des modèles d'IA.
L'intersection sur l'union (IoU) est une mesure fondamentale largement utilisée en vision artificielle (CV), en particulier pour des tâches telles que la détection d'objets et la segmentation d'images. Elle quantifie la précision avec laquelle une limite prédite (comme une boîte de délimitation dans la détection d'objets) correspond à la limite réelle d'un objet. Essentiellement, l'indice d'utilité mesure le degré de chevauchement entre la zone prédite et la zone réelle, ce qui permet d'obtenir un score simple mais efficace pour les performances de localisation. Il est essentiel de comprendre l'indice d'utilité pour évaluer et comparer l'efficacité des modèles de vision artificielle, en particulier pour les utilisateurs familiarisés avec les concepts de base de l 'apprentissage machine (ML).
L'indice d'utilité est un indicateur de performance essentiel lorsqu'il s'agit d'évaluer la capacité des modèles, tels qu'Ultralytics YOLO, à localiser des objets dans une image. Alors que la classification nous indique quel objet est présent (voir Classification de l'image), l'indice d'utilité nous indique dans quelle mesure le modèle a localisé cet objet. Cette précision spatiale est essentielle dans de nombreux scénarios du monde réel, où une localisation précise est aussi importante qu'une classification correcte. Des scores élevés d'indice d'utilité indiquent que les prédictions du modèle s'alignent étroitement sur les limites réelles de l'objet. De nombreux benchmarks de détection d'objets, tels que l'évaluation du populaire jeu de données COCO et l'ancien défi PASCAL VOC, s'appuient fortement sur les seuils de l'indice d'utilité pour déterminer si une détection est considérée comme correcte. Vous pouvez explorer divers jeux de données de référence tels que COCO et PASCAL VOC dans notre documentation.
Le calcul consiste à diviser la zone où la boîte de délimitation prédite et la boîte de délimitation réelle se chevauchent (l'intersection) par la zone totale couverte par les deux boîtes combinées (l'union). Ce rapport donne un score compris entre 0 et 1. Un score de 1 signifie une correspondance parfaite, c'est-à-dire que la boîte prédite recouvre exactement la boîte de vérité au sol. Un score de 0 indique qu'il n'y a aucun chevauchement. Une pratique courante dans de nombreux protocoles d'évaluation de la détection d'objets consiste à considérer qu'une prédiction est correcte si le score de l'indice d'utilité atteint ou dépasse un certain seuil, souvent 0,5. Toutefois, des seuils plus stricts (par exemple, 0,75 ou même 0,9) peuvent être utilisés en fonction du besoin de précision de l'application, comme le montrent des mesures telles que mAP@.5 :.95 utilisées dans les évaluations COCO. Ce seuil a un impact direct sur des mesures telles que la précision et le rappel.
La capacité de l'IoU à mesurer la précision de la localisation le rend indispensable dans divers domaines :
Bien que l'indice d'utilité mesure spécifiquement la qualité de la localisation pour une prédiction unique par rapport à une vérité de terrain, il est souvent utilisé avec d'autres mesures pour obtenir une image complète des performances.
L'indice d'utilité n'est pas seulement une mesure d'évaluation ; il fait également partie intégrante du processus d'apprentissage lui-même. De nombreuses architectures modernes de détection d'objets, y compris les variantes d'Ultralytics YOLOv8 et YOLOv10, utilisent le rapport coût-efficacité ou ses variations (comme le rapport coût-efficacité généralisé (GIoU), le rapport coût-efficacité distance (DIoU) ou le rapport coût-efficacité complet (CIoU)) directement au sein de leurs fonctions de perte. Ces pertes avancées basées sur l'indice d'utilité permettent au modèle d'apprendre à prédire des boîtes englobantes qui non seulement se chevauchent bien, mais prennent également en compte des facteurs tels que la distance entre les centres et la cohérence du rapport hauteur/largeur, ce qui permet une convergence plus rapide et de meilleures performances de localisation par rapport aux pertes de régression traditionnelles. Vous trouverez des comparaisons détaillées entre les différents modèles YOLO dans notre documentation.
Le suivi de l'IoU pendant l'entraînement du modèle et l'ajustement des hyperparamètres aide les développeurs à affiner les modèles pour une meilleure localisation. Des outils comme Ultralytics HUB permettent de suivre l'indice d'intégrité et d'autres paramètres, ce qui simplifie le cycle d'amélioration des modèles. Malgré son utilité très répandue, l'indice d'utilité standard peut parfois être insensible, en particulier pour les boîtes qui ne se chevauchent pas ou pour les boîtes d'échelles très différentes. C'est ce qui a motivé le développement des variantes de l'indice de référence mentionnées ci-dessus. Néanmoins, l'IoU reste une pierre angulaire de l'évaluation de la vision par ordinateur et un concept clé de l'apprentissage profond (DL).