Précision moyenne (mAP) dans la détection d'objets

Abirami Vina

6 minutes de lecture

28 août 2025

Comprendre la précision moyenne (mAP) dans la détection d'objets. Apprenez sa signification, son calcul et pourquoi la mAP est essentielle pour évaluer les performances d'un modèle.

L'adoption de l'IA progresse rapidement et l'IA est intégrée dans diverses innovations, depuis les voitures autonomes jusqu'aux systèmes de vente au détail capables d'identifier les produits sur une étagère. Ces technologies s'appuient sur la vision artificielle, une branche de l'intelligence artificielle (IA) qui permet aux machines d'analyser des données visuelles. 

La précision moyenne (mAP) est un paramètre d'évaluation clé utilisé pour mesurer la précision des systèmes et algorithmes de vision artificielle. La précision moyenne moyenne indique dans quelle mesure les prédictions d'un modèle d'IA de vision correspondent aux résultats du monde réel.

Une tâche courante de vision par ordinateur est la détection d'objets, où un modèle identifie plusieurs objets dans une image et dessine des boîtes de délimitation autour d'eux. mAP est la métrique standard utilisée pour évaluer les performances des modèles de détection d'objets et est largement utilisée pour comparer les modèles d'apprentissage profond comme Ultralytics YOLO11.

Dans cet article, nous verrons comment la précision moyenne est calculée et pourquoi elle est essentielle pour toute personne qui forme ou évalue des modèles de détection d'objets. Commençons par le commencement !

Qu'est-ce que la précision moyenne (mAP) ?

La précision moyenne est un score qui met en évidence la précision d'un modèle d'apprentissage profond lorsqu'il s'agit de tâches liées à la recherche d'informations visuelles, comme la détection et l'identification de différents objets dans une image. Par exemple, considérons un modèle de détection d'objets analysant une photo contenant un chien, un chat et une voiture. Un modèle fiable peut effectuer la détection d'objets en reconnaissant chaque objet et en dessinant des boîtes de délimitation et des étiquettes autour de lui, en mettant en évidence l'endroit où il se trouve et ce qu'il est.

mAP indique dans quelle mesure le modèle exécute cette tâche sur de nombreuses images et pour différents types d'objets. Il vérifie si le modèle identifie correctement chaque objet et son emplacement dans l'image. Le score va de 0 à 1, où 1 signifie que le modèle a parfaitement trouvé tous les objets, et où 0 signifie qu'il n'a détecté aucun objet.

Concepts clés de la précision moyenne (mAP)

Avant d'explorer les concepts qui sous-tendent la précision moyenne dans l'apprentissage automatique, il convient de mieux comprendre deux termes de base : la vérité de terrain et les prédictions. 

La vérité de terrain fait référence aux données de référence précises, où les objets et leur emplacement dans l'image sont soigneusement étiquetés par des humains dans le cadre d'un processus connu sous le nom d'annotation. Les prédictions, quant à elles, sont les résultats que les modèles d'intelligence artificielle donnent après avoir analysé une image. En comparant les prédictions du modèle d'IA à la vérité terrain, nous pouvons mesurer à quel point le modèle s'est rapproché des résultats corrects. 

Fig. 1. Boîtes de délimitation de la prédiction du modèle et de la vérité terrain. Image de l'auteur.

Matrice de confusion

Une matrice de confusion est souvent utilisée pour comprendre le degré de précision d'un modèle de détection d'objets. Il s'agit d'un tableau qui montre comment les prédictions du modèle correspondent aux réponses correctes réelles (vérité de terrain). À partir de ce tableau, nous pouvons obtenir une ventilation de quatre composants ou résultats clés : les vrais positifs, les faux positifs, les faux négatifs et les vrais négatifs.

Voici ce que représentent ces composantes dans la matrice de confusion :

  • Vrai positif (TP) : Un objet et son emplacement sont correctement détectés par le modèle.
  • Faux positif (FP) : le modèle a fait une détection, mais elle était incorrecte.
  • Faux négatif (FN) : Un objet qui était en fait présent dans l'image, mais que le modèle n'a pas détecté.
  • Vrai négatif (TN) : Les vraies négations se produisent lorsque le modèle identifie correctement l'absence d'un objet.

Les vrais négatifs ne sont pas couramment utilisés dans la détection d'objets, car nous ignorons généralement les nombreuses régions vides d'une image. Cependant, ils sont essentiels dans d'autres tâches de vision par ordinateur, telles que la classification d'images, où le modèle attribue une étiquette à l'image. Par exemple, si la tâche consiste à détecter si une image contient un chat ou non, et que le modèle identifie correctement "pas de chat" lorsque l'image n'en contient pas, il s'agit d'un vrai négatif.

Fig. 2. Résultats de la classification dans une matrice de confusion. Image de l'auteur.

Intersection sur l'Union (IoU)

Une autre mesure essentielle dans l'évaluation des modèles de détection d'objets est l' intersection sur l'union (IoU). Pour ces modèles d'IA visionnaire, il ne suffit pas de détecter la présence d'un objet dans une image ; il faut également localiser l'endroit où il se trouve dans l'image afin de dessiner des boîtes de délimitation. 

L'indicateur d'intégrité mesure le degré de correspondance entre la boîte prédite par le modèle et la boîte réelle et correcte (vérité de terrain). Le score est compris entre 0 et 1, 1 signifiant une correspondance parfaite et 0 un chevauchement nul.

Par exemple, un IoU élevé (comme 0,80 ou 0,85) signifie que la boîte prédite est proche de la boîte de vérité au sol, ce qui indique une localisation précise. Un IoU inférieur (comme 0,30 ou 0,25) signifie que le modèle n'a pas localisé l'objet avec précision.

Pour déterminer si une détection est réussie, nous utilisons différents seuils. Un seuil commun de l'IoU est de 0,5, ce qui signifie qu'une boîte prédite doit chevaucher la boîte de vérité au sol d'au moins 50 % pour être considérée comme un vrai positif. Tout chevauchement inférieur à ce seuil est considéré comme un faux positif.

Fig. 3. Comprendre l'intersection par rapport à l'union. Image de l'auteur.

Précision et rappel

Jusqu'à présent, nous avons exploré quelques mesures d'évaluation de base pour comprendre les performances des modèles de détection d'objets. Sur cette base, deux des mesures les plus importantes sont la précision et le rappel. Elles nous donnent une image claire de la précision des détections du modèle. Voyons de quoi il s'agit.

Les valeurs de précision nous indiquent combien de prédictions du modèle étaient réellement correctes. Elles répondent à la question suivante : parmi tous les objets que le modèle prétendait détecter, combien étaient réellement présents ?

Les valeurs de rappel, quant à elles, mesurent la capacité du modèle à trouver tous les objets réels présents dans l'image. Elles répondent à la question suivante : parmi tous les objets réels présents, combien le modèle a-t-il correctement détectés ?

Ensemble, la précision et le rappel nous donnent une image plus claire de la performance d'un modèle. Par exemple, si un modèle prédit 10 voitures dans une image et que 9 d'entre elles sont effectivement des voitures, sa précision est de 90 % (prédiction positive). 

Ces deux mesures d'évaluation impliquent souvent un compromis : un modèle peut atteindre une valeur de précision élevée en ne faisant que des prédictions dans lesquelles il a pleinement confiance, mais il risque alors de manquer de nombreux objets, ce qui abaisse le niveau de rappel. Parallèlement, il peut également atteindre une valeur de rappel très élevée en prédisant une boîte englobante presque partout, mais la précision s'en trouve réduite.

Fig. 4. Précision et rappel. Image de l'auteur.

Précision moyenne

Alors que la précision et le rappel nous aident à comprendre les performances d'un modèle sur des prédictions individuelles, la précision moyenne (AP) permet d'obtenir une vision plus large. Elle illustre l'évolution de la précision du modèle lorsqu'il tente de détecter un plus grand nombre d'objets et résume ses performances en un seul chiffre.

Pour calculer le score moyen de précision, nous pouvons tout d'abord créer une mesure graphique combinée appelée courbe de précision-rappel (ou courbe PR) pour chaque type d'objet. Cette courbe montre ce qui se passe au fur et à mesure que le modèle fait des prédictions. 

Considérons un scénario dans lequel le modèle commence par détecter uniquement les objets les plus faciles ou les plus évidents. À ce stade, la précision est élevée car la plupart des prédictions sont correctes, mais le rappel est faible car de nombreux objets ne sont toujours pas détectés. Lorsque le modèle tente de détecter davantage d'objets, y compris les plus difficiles ou les plus rares, il introduit généralement plus d'erreurs. La précision diminue alors, tandis que le rappel augmente.

La précision moyenne est l'aire sous la courbe (AUC de la courbe PR). Une aire plus grande signifie que le modèle parvient mieux à maintenir la précision de ses prédictions, même s'il détecte davantage d'objets. L'aire sous la courbe est calculée séparément pour chaque étiquette de classe. 

Par exemple, dans un modèle capable de détecter des voitures, des vélos et des piétons, nous pouvons calculer les valeurs AP individuellement pour chacune de ces trois catégories. Cela nous permet de savoir quels objets sont bien détectés par le modèle et quels objets doivent encore être améliorés.

Fig. 5. Courbe PR pour cinq classes différentes.(Source)

Précision moyenne moyenne

Après avoir calculé la précision moyenne pour chaque classe d'objets, nous avons encore besoin d'un score unique qui reflète la performance globale du modèle pour toutes les classes. Pour ce faire, nous utilisons la formule de la précision moyenne . Elle calcule la moyenne des scores de PA pour chaque catégorie.

Par exemple, supposons qu'un modèle de vision artificielle comme YOLO11 atteigne un PA de 0,827 pour les voitures, 0,679 pour les motos, 0,355 pour les camions, 0,863 pour les bus et 0,982 pour les bicyclettes. En utilisant la formule mAP, nous pouvons additionner ces chiffres et les diviser par le nombre total de classes comme suit : 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

Le score mAP de 0,743 offre une solution simple pour évaluer la performance du modèle dans toutes les classes d'objets. Une valeur proche de 1 signifie que le modèle est précis pour la plupart des catégories, tandis qu'une valeur inférieure suggère qu'il a des difficultés avec certaines d'entre elles.

Importance de l'AP et de la mAP dans la vision par ordinateur

Maintenant que nous comprenons mieux comment AP et mAP sont calculés et quelles sont leurs composantes, voici un aperçu de leur importance dans la vision par ordinateur :

  • Faible PA pour une classe spécifique : Un AP faible pour une seule classe signifie souvent que le modèle a des difficultés avec cette classe d'objets spécifique. Cela peut être dû à un manque de données d'entraînement ou à des difficultés visuelles dans les images, comme l'occlusion.
  • Erreurs de localisation : Une valeur mAP plus élevée à un seuil d'UI inférieur (tel que mAP@0.50) combinée à une baisse significative à un seuil d'UI supérieur (tel que mAP@0.75) indique que le modèle peut détecter des objets mais a du mal à les localiser avec précision.
  • Surajustement : Une valeur mAP plus élevée sur l'ensemble de données d' apprentissage mais une valeur mAP plus faible sur l'ensemble de données de validation est un signe de surajustement, ce qui rend le modèle peu fiable pour les nouvelles images.

Applications concrètes de la précision moyenne

Ensuite, examinons comment des mesures clés telles que mAP peuvent aider à élaborer des cas d'utilisation de la vision par ordinateur dans le monde réel.

Véhicules autonomes : Pourquoi une valeur mAP plus élevée signifie des routes plus sûres

En ce qui concerne les voitures autonomes, la détection des objets est essentielle pour identifier les piétons, les panneaux de signalisation, les cyclistes et les marquages de voie. Par exemple, si un enfant traverse soudainement la rue en courant, la voiture a quelques secondes pour détecter l'objet (l'enfant), localiser l'endroit où il se trouve, suivre son mouvement et prendre les mesures nécessaires (freiner). 

Des modèles comme YOLO11 sont conçus pour la détection d'objets en temps réel dans de tels scénarios à fort enjeu. Dans ces cas, la mAP devient une mesure de sécurité essentielle.

Un score mAP élevé garantit que le système détecte rapidement l'enfant, le localise avec précision et déclenche le freinage avec un délai minimal. Un score mAP faible peut signifier des détections manquées ou des erreurs de classification dangereuses, comme le fait de confondre l'enfant avec un autre petit objet.

Fig. 6. Exemple d'utilisation de YOLO11 pour détecter les piétons sur la route.(Source)

Utilisation de mAP pour une détection précise des produits

De même, dans le commerce de détail, les modèles de détection d'objets peuvent être utilisés pour automatiser des tâches telles que le suivi des stocks et les processus de caisse. Lorsqu'un client scanne un produit à une caisse automatique, une erreur de détection peut être source de frustration.

Un score mAP élevé permet de s'assurer que le modèle distingue correctement les produits similaires et dessine des boîtes de délimitation précises, même lorsque les articles sont étroitement emballés. Un score mAP faible peut entraîner des confusions. Par exemple, si le modèle confond une bouteille de jus d'orange avec une bouteille de jus de pomme visuellement similaire, il peut en résulter une facturation incorrecte et des rapports d'inventaire inexacts.

Les systèmes de vente au détail intégrés à des modèles tels que YOLO11 peuvent détecter les produits en temps réel, les comparer à l'inventaire et mettre à jour les systèmes de gestion instantanément. Dans les environnements de vente au détail en constante évolution, le mAP joue un rôle crucial dans la précision et la fiabilité des opérations.

Amélioration de la précision du diagnostic grâce à une mAP élevée dans le domaine des soins de santé

L'amélioration de la précision des diagnostics dans les soins de santé commence par une détection précise dans l'imagerie médicale. Des modèles comme YOLO11 peuvent aider les radiologues à repérer des tumeurs, des fractures ou d'autres anomalies à partir de ces scanners médicaux. Dans ce cas, la précision moyenne est une mesure essentielle pour évaluer la fiabilité clinique d'un modèle.

Un mAP élevé indique que le modèle atteint à la fois un rappel élevé (identifiant les problèmes les plus réels) et une précision élevée (évitant les fausses alertes), ce qui est crucial dans la prise de décision clinique. En outre, le seuil de l'IoU dans les soins de santé est souvent fixé à un niveau très élevé (0,85 ou 0,90) afin de garantir une détection extrêmement précise.

Cependant, un score mAP faible peut susciter des inquiétudes. Si un modèle ne détecte pas une tumeur, cela peut retarder le diagnostic ou conduire à un traitement incorrect. 

Avantages et inconvénients de l'utilisation de mAP

Voici les principaux avantages de l'utilisation de la précision moyenne pour évaluer les modèles de détection d'objets :

  • Mesure normalisée : mAP est la norme industrielle pour l'évaluation des modèles de détection d'objets. Une valeur mAP permet des comparaisons justes et cohérentes entre différents modèles.
  • Reflète les performances dans le monde réel : Un mAP élevé indique que le modèle excelle dans la détection de différentes classes d'objets et qu'il reste performant dans des scénarios complexes et réels.
  • Diagnostics par classe : Un score mAP évalue les performances de détection pour chaque classe individuellement. Il est ainsi plus facile d'identifier les catégories peu performantes (comme les bicyclettes ou les panneaux de signalisation) et d'affiner le modèle en conséquence.

Bien que l'utilisation de la métrique mAP présente de nombreux avantages, il convient de tenir compte de certaines limites. Voici quelques facteurs à prendre en compte :

  • Difficile pour les parties prenantes non techniques : Les équipes commerciales ou cliniques peuvent trouver les valeurs mAP abstraites, contrairement aux mesures plus intuitives et faciles à comprendre.
  • Ne reflète pas les contraintes de temps réel : mAP ne tient pas compte de la vitesse d'inférence ou de la latence, qui sont cruciales pour le déploiement d'applications sensibles au facteur temps.

Principaux enseignements

Nous avons vu que la précision moyenne n'est pas seulement un score technique, mais qu'elle reflète les performances potentielles d'un modèle dans le monde réel. Qu'il s'agisse d'un système de véhicule autonome ou d'une caisse de magasin, un score mAP élevé est un indicateur fiable de la performance et de l'aptitude pratique d'un modèle.

Bien que le mAP soit une mesure essentielle et importante, il doit être considéré comme un élément d'une stratégie d'évaluation bien équilibrée. Pour les applications critiques telles que les soins de santé et la conduite autonome, il ne suffit pas de se fier uniquement à la mAP. 

D'autres facteurs tels que la vitesse d'inférence (rapidité avec laquelle le modèle fait des prédictions), la taille du modèle (qui a un impact sur le déploiement sur les appareils périphériques) et l'analyse qualitative des erreurs (compréhension des types d'erreurs commises par le modèle) doivent également être pris en compte pour s'assurer que le système est sûr, efficace et réellement adapté à l'objectif visé.

Rejoignez notre communauté grandissante et notre dépôt GitHub pour en savoir plus sur la vision par ordinateur. Explorez nos pages de solutions pour en savoir plus sur les applications de la vision par ordinateur dans l'agriculture et l' IA dans la logistique. Consultez nos options de licence pour commencer à créer votre propre modèle de vision par ordinateur dès aujourd'hui !

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers