Précision moyenne (mAP) : Détection d'objets

L'adoption de l'IA croît rapidement et l'IA est intégrée à diverses innovations, des voitures autonomes aux systèmes de vente au détail capables d'identifier les produits sur une étagère. Ces technologies reposent sur la vision par ordinateur, une branche de l'intelligence artificielle (IA) qui permet aux machines d'analyser les données visuelles.

Une métrique d'évaluation clé utilisée pour mesurer la précision des systèmes et algorithmes de vision par ordinateur est la précision moyenne (mAP). La métrique mAP indique dans quelle mesure la prédiction d'un modèle de Vision IA correspond aux résultats du monde réel.

Une tâche courante en vision par ordinateur est la détection d'objets, où un modèle identifie plusieurs objets dans une image et dessine des boîtes englobantes autour d'eux. La mAP est la métrique standard utilisée pour évaluer les performances des modèles de détection d'objets et est largement utilisée pour comparer les modèles d'apprentissage profond comme Ultralytics YOLO11.

Dans cet article, nous verrons comment la précision moyenne est calculée et pourquoi elle est essentielle pour quiconque entraîne ou évalue des modèles de détection d'objets. Commençons !

Qu'est-ce que la précision moyenne (mAP) ?

La précision moyenne est un score qui indique la précision d'un modèle d'apprentissage profond pour les tâches liées à la recherche d'informations visuelles, comme la détection et l'identification de différents objets dans une image. Prenons l'exemple d'un modèle de détection d'objets qui analyse une photo contenant un chien, un chat et une voiture. Un modèle fiable peut effectuer une détection d'objets en reconnaissant chaque objet et en dessinant des boîtes englobantes et des étiquettes autour de celui-ci, en indiquant où il se trouve et ce qu'il est.

La mAP indique la performance du modèle pour cette tâche sur de nombreuses images et différents types d'objets. Elle vérifie si le modèle identifie avec précision chaque objet et son emplacement dans l'image. Le score varie de 0 à 1, où 1 signifie que le modèle a tout trouvé parfaitement, et 0 signifie qu'il n'a détecté aucun objet.

Concepts clés de la précision moyenne (mAP)

Avant d'explorer les concepts qui sous-tendent la précision moyenne moyenne en apprentissage automatique, essayons de mieux comprendre deux termes de base : la vérité terrain et les prédictions.

La vérité terrain désigne les données de référence exactes, où les objets et leurs emplacements dans l'image sont soigneusement étiquetés par des humains grâce à un processus appelé annotation. Pendant ce temps, les prédictions sont les résultats que les modèles d'IA donnent après avoir analysé une image. En comparant les prédictions du modèle d'IA à la vérité terrain, nous pouvons mesurer la précision des résultats obtenus par le modèle.

Fig. 1. La prédiction du modèle et les boîtes englobantes de vérité terrain. Image de l'auteur.

‍

Matrice de confusion

Une matrice de confusion est souvent utilisée pour comprendre la précision d'un modèle de détection d'objets. Il s'agit d'un tableau qui montre comment les prédictions du modèle correspondent aux réponses correctes réelles (vérité terrain). À partir de ce tableau, nous pouvons obtenir une ventilation de quatre composantes ou résultats clés : les vrais positifs, les faux positifs, les faux négatifs et les vrais négatifs.

Voici ce que ces composantes représentent dans la matrice de confusion :

Vrai positif (VP) : Un objet et son emplacement sont correctement détectés par le modèle.
‍
Faux positif (FP) : Le modèle a fait une détection, mais elle était incorrecte.
‍
Faux négatif (FN) : Un objet qui était réellement présent dans l'image, mais que le modèle n'a pas réussi à détecter.
‍
Vrai négatif (VN) : Les vrais négatifs se produisent lorsque le modèle identifie correctement l’absence d’un objet.

Les vrais négatifs ne sont pas couramment utilisés dans la détection d'objets, car nous ignorons généralement les nombreuses régions vides d'une image. Cependant, ils sont essentiels dans d'autres tâches de vision par ordinateur, telles que la classification d'images, où le modèle attribue une étiquette à l'image. Par exemple, si la tâche consiste à détecter si une image contient ou non un chat, et que le modèle identifie correctement "pas de chat" lorsque l'image n'en contient pas, il s'agit d'un vrai négatif.

Fig. 2. Résultats de la classification dans une matrice de confusion. Image par l'auteur.

‍

Intersection sur Union (IoU)

Une autre mesure essentielle dans l'évaluation des modèles de détection d'objets est l'Intersection sur l'Union (IoU). Pour ces modèles de Vision IA, il ne suffit pas de détecter la présence d'un objet dans une image ; il faut également localiser où il se trouve dans une image pour dessiner des boîtes englobantes.

La métrique IoU mesure la correspondance entre la boîte prédite par le modèle et la boîte réelle (vérité terrain). Le score se situe entre 0 et 1, où 1 signifie une correspondance parfaite et 0 signifie aucune superposition.

Par exemple, un IoU plus élevé (comme 0,80 ou 0,85) signifie que la boîte prédite correspond étroitement à la boîte de vérité terrain, ce qui indique une localisation précise. Un IoU plus faible (comme 0,30 ou 0,25) signifie que le modèle n'a pas localisé l'objet avec précision.

Pour déterminer si une détection est réussie, nous utilisons différents seuils. Un seuil d'IoU courant est de 0,5, ce qui signifie qu'une boîte prédite doit chevaucher la boîte de vérité terrain d'au moins 50 % pour être comptabilisée comme un vrai positif. Tout chevauchement inférieur à ce seuil est considéré comme un faux positif.

Fig. 3. Comprendre l'Intersection sur l'Union. Image de l'auteur.

‍

Précision et rappel

Jusqu'à présent, nous avons exploré quelques métriques d'évaluation de base pour comprendre les performances des modèles de détection d'objets. S'appuyant sur cela, deux des métriques les plus importantes sont la précision et le rappel. Ils nous donnent une image claire de la précision des détections du modèle. Examinons ce qu'ils sont.

Les valeurs de précision nous indiquent combien de prédictions du modèle étaient réellement correctes. Elle répond à la question : parmi tous les objets que le modèle prétend avoir détectés, combien étaient réellement présents ?

Les valeurs de rappel, quant à elles, mesurent la capacité du modèle à trouver tous les objets réels présents dans l'image. Cela répond à la question suivante : parmi tous les objets réels présents, combien le modèle a-t-il correctement détectés ?

Ensemble, la précision et le rappel nous donnent une image plus claire de la performance d'un modèle. Par exemple, si un modèle prédit 10 voitures dans une image et que 9 d'entre elles sont effectivement des voitures, il a une précision de 90 % (une prédiction positive).

Ces deux métriques d'évaluation impliquent souvent un compromis : un modèle peut atteindre une valeur de précision élevée en ne faisant que des prédictions dont il est pleinement certain, mais cela peut l'amener à manquer de nombreux objets, ce qui diminue le niveau de rappel. Parallèlement, il peut également atteindre un rappel très élevé en prédisant une boîte englobante presque partout, mais cela réduirait la précision.

Fig. 4. Précision et rappel. Image de l'auteur.

‍

Précision moyenne

Bien que la précision et le rappel nous aident à comprendre les performances d'un modèle sur des prédictions individuelles, la précision moyenne (AP) peut fournir une vue d'ensemble plus large. Elle illustre l'évolution de la précision du modèle lorsqu'il tente de détecter davantage d'objets, et résume ses performances en un seul chiffre.

Pour calculer le score de précision moyenne, nous pouvons d'abord créer une métrique combinée de type graphique appelée courbe de précision-rappel (ou courbe PR) pour chaque type d'objet. Cette courbe montre ce qui se passe lorsque le modèle fait plus de prédictions.

Prenons un scénario où le modèle commence par détecter uniquement les objets les plus faciles ou les plus évidents. À ce stade, la précision est élevée car la plupart des prédictions sont correctes, mais le rappel est faible car de nombreux objets sont encore manqués. Lorsque le modèle essaie de détecter davantage d'objets, y compris les plus difficiles ou les plus rares, il introduit généralement plus d'erreurs. Cela entraîne une baisse de la précision tandis que le rappel augmente.

La précision moyenne est l'aire sous la courbe (AUC de la courbe PR). Une aire plus grande signifie que le modèle est plus performant pour maintenir la précision de ses prédictions, même lorsqu'il détecte davantage d'objets. L'AP est calculée séparément pour chaque étiquette de classe.

Par exemple, dans un modèle capable de détecter les voitures, les vélos et les piétons, nous pouvons calculer les valeurs AP individuellement pour chacune de ces trois catégories. Cela nous aide à voir quels objets le modèle est bon à détecter et où il pourrait encore avoir besoin d'amélioration.

Fig 5. Courbe PR pour cinq classes différentes. (Source)

‍

Précision moyenne (mAP)

Après avoir calculé la précision moyenne pour chaque classe d'objets, nous avons toujours besoin d'un score unique qui reflète la performance globale du modèle pour toutes les classes. Ceci peut être réalisé en utilisant la formule de la précision moyenne (mAP). Elle calcule la moyenne des scores AP pour chaque catégorie.

Par exemple, supposons qu'un modèle de vision par ordinateur comme YOLO11 atteigne une AP de 0,827 pour les voitures, 0,679 pour les motos, 0,355 pour les camions, 0,863 pour les bus et 0,982 pour les vélos. En utilisant la formule mAP, nous pouvons additionner ces chiffres et diviser par le nombre total de classes comme suit :

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

Le score mAP de 0,743 fournit une solution simple pour évaluer la performance du modèle sur toutes les classes d'objets. Une valeur proche de 1 signifie que le modèle est précis pour la plupart des catégories, tandis qu'une valeur plus faible suggère qu'il a des difficultés avec certaines.

Importance de AP et mAP dans la vision par ordinateur

Maintenant que nous avons une meilleure compréhension de la façon dont AP et mAP sont calculés et de leurs composantes, voici un aperçu de leur importance dans la vision par ordinateur :

Faible AP pour une classe spécifique : Une faible AP pour une seule classe signifie souvent que le modèle a du mal avec cette classe d'objets spécifique. Cela peut être dû à des données d'entraînement insuffisantes ou à des défis visuels dans les images, comme l'occlusion.

Erreurs de localisation : Une valeur mAP plus élevée à un seuil IoU inférieur (tel que mAP@0.50) combinée à une baisse significative à un seuil IoU plus élevé (tel que mAP@0.75) indique que le modèle peut détecter des objets mais a du mal à les localiser avec précision.

Surapprentissage : Une valeur mAP plus élevée sur l'ensemble de données d'entraînement, mais une valeur mAP plus faible sur l'ensemble de données de validation est un signe de surapprentissage, ce qui rend le modèle peu fiable pour les nouvelles images.

Applications concrètes de la précision moyenne (mAP)

Ensuite, explorons comment des métriques clés comme la mAP peuvent aider lors de la création de cas d'utilisation de vision par ordinateur dans le monde réel.

Véhicules autonomes : Pourquoi une valeur mAP plus élevée signifie des routes plus sûres

En ce qui concerne les voitures autonomes, la détection d'objets est essentielle pour identifier les piétons, les panneaux de signalisation, les cyclistes et le marquage des voies. Par exemple, si un enfant traverse soudainement la rue en courant, la voiture a quelques secondes pour détecter l'objet (enfant), localiser où il se trouve, suivre son mouvement et prendre les mesures nécessaires (appliquer les freins).

Les modèles tels que YOLO11 sont conçus pour la détection d'objets en temps réel dans des scénarios à enjeux élevés. Dans ces cas, la mAP devient une mesure de sécurité essentielle.

Un score mAP élevé garantit que le système détecte l'enfant rapidement, le localise avec précision et déclenche le freinage avec un délai minimal. Un faible mAP peut signifier des détections manquées ou des erreurs de classification dangereuses, comme confondre l'enfant avec un autre petit objet.

Fig. 6. Un exemple de YOLO11 utilisé pour détecter les piétons sur la route. (Source)

‍

Utilisation de la mAP pour une détection précise des produits

De même, dans le commerce de détail, les modèles de détection d'objets peuvent être utilisés pour automatiser des tâches telles que la surveillance des stocks et les processus de caisse. Lorsqu'un client scanne un produit à une caisse automatique, une erreur de détection peut entraîner de la frustration.

Un score mAP élevé garantit que le modèle distingue avec précision les produits similaires et trace des boîtes englobantes précises, même lorsque les articles sont étroitement emballés. Un faible score mAP peut entraîner des confusions. Par exemple, si le modèle confond une bouteille de jus d'orange avec une bouteille de jus de pomme visuellement similaire, cela pourrait entraîner une facturation incorrecte et des rapports d'inventaire inexacts.

Les systèmes de vente au détail intégrés à des modèles comme YOLO11 peuvent détecter les produits en temps réel, les comparer à l'inventaire et mettre à jour instantanément les systèmes backend. Dans les environnements de vente au détail rapides, la mAP joue un rôle crucial pour assurer la précision et la fiabilité des opérations.

Amélioration de la précision du diagnostic grâce à un mAP élevé dans le domaine de la santé

L'amélioration de la précision du diagnostic dans le secteur de la santé commence par une détection précise dans l'imagerie médicale. Des modèles comme YOLO11 peuvent aider les radiologues à repérer les tumeurs, les fractures ou d'autres anomalies à partir de ces examens médicaux. Ici, la précision moyenne est une mesure essentielle pour évaluer la fiabilité clinique d'un modèle.

Un mAP élevé indique que le modèle atteint à la fois un rappel élevé (identification de la plupart des problèmes réels) et une grande précision (éviter les fausses alarmes), ce qui est crucial dans la prise de décision clinique. De plus, le seuil IoU dans le domaine de la santé est souvent fixé très haut (0,85 ou 0,90) pour garantir une détection extrêmement précise.

Cependant, un faible score mAP peut susciter des inquiétudes. Imaginons qu'un modèle ne détecte pas une tumeur ; cela pourrait retarder le diagnostic ou conduire à un traitement incorrect.

Avantages et inconvénients de l'utilisation de la mAP

Voici les principaux avantages de l'utilisation de la précision moyenne (mAP) pour évaluer les modèles de détection d'objets :

Métrique standardisée : mAP est la norme de l'industrie pour évaluer les modèles de détection d'objets. Une valeur mAP permet des comparaisons justes et cohérentes entre différents modèles.

Reflète les performances dans le monde réel : Un mAP élevé indique que le modèle excelle dans la détection de diverses classes d'objets et maintient de solides performances dans des scénarios complexes du monde réel.

Diagnostics par classe : Un score mAP évalue les performances de détection pour chaque classe individuellement. Cela facilite l'identification des catégories sous-performantes (comme les vélos ou les panneaux de signalisation) et l'ajustement fin du modèle en conséquence.

Bien qu'il existe divers avantages à utiliser la métrique mAP, il y a certaines limites à prendre en compte. Voici quelques facteurs à prendre en compte :

Difficile pour les parties prenantes non techniques : Les équipes commerciales ou cliniques peuvent trouver les valeurs mAP abstraites, contrairement aux métriques plus intuitives et faciles à comprendre.

Ne reflète pas les contraintes en temps réel : la mAP ne tient pas compte de la vitesse d'inférence ou de la latence, qui sont cruciales pour le déploiement dans les applications sensibles au facteur temps.

Principaux points à retenir

Nous avons constaté que la précision moyenne moyenne n'est pas seulement un score technique, mais le reflet du potentiel de performance réelle d'un modèle. Que ce soit dans un système de véhicule autonome ou à la caisse d'un magasin de détail, un score mAP élevé est un indicateur fiable de la performance d'un modèle et de sa préparation pratique.

Bien que la mAP soit une métrique essentielle et percutante, elle doit être considérée comme faisant partie d'une stratégie d'évaluation bien équilibrée. Pour les applications critiques telles que les soins de santé et la conduite autonome, il ne suffit pas de se fier uniquement à la mAP.

Des facteurs supplémentaires tels que la vitesse d'inférence (la rapidité avec laquelle le modèle fait des prédictions), la taille du modèle (qui a un impact sur le déploiement sur les appareils périphériques) et l'analyse qualitative des erreurs (comprendre les types d'erreurs que le modèle fait) doivent également être pris en compte pour garantir que le système est sûr, efficace et réellement adapté à l'usage auquel il est destiné.

Rejoignez notre communauté en pleine croissance et notre dépôt GitHub pour en savoir plus sur la vision par ordinateur. Explorez nos pages de solutions pour en savoir plus sur les applications de la vision par ordinateur dans l'agriculture et de l'IA dans la logistique. Consultez nos options de licence pour démarrer dès aujourd'hui avec votre propre modèle de vision par ordinateur !

Précision moyenne (mAP) dans la détection d'objets

Qu'est-ce que la précision moyenne (mAP) ?