Précision moyenne (mAP) dans la détection d'objets
Comprends la précision moyenne (mAP) dans la détection d'objets. Apprends sa signification, son calcul et pourquoi le mAP est clé pour évaluer les performances d'un modèle.

L'adoption de l'IA croît rapidement et celle-ci est intégrée dans diverses innovations, des voitures autonomes aux systèmes de vente au détail capables d'identifier des produits sur une étagère. Ces technologies reposent sur la vision par ordinateur, une branche de l'intelligence artificielle (IA) qui permet aux machines d'analyser des données visuelles.
Une mesure d'évaluation clé utilisée pour évaluer la précision des systèmes et algorithmes de vision par ordinateur est la précision moyenne (mAP). La mesure mAP indique à quel point la prédiction d'un modèle d'IA de vision correspond aux résultats du monde réel.
Une tâche courante de vision par ordinateur est la détection d'objets, où un modèle identifie plusieurs objets dans une image et trace des boîtes englobantes autour d'eux. La mAP est la mesure standard utilisée pour évaluer les performances des modèles de détection d'objets et est largement utilisée pour comparer des modèles d'apprentissage profond comme Ultralytics YOLO11.
Dans cet article, nous verrons comment la précision moyenne est calculée et pourquoi elle est essentielle pour quiconque entraîne ou évalue des modèles de détection d'objets. Commençons !
Link to this sectionQu'est-ce que la précision moyenne (mAP) ?#
La précision moyenne est un score qui montre la précision d'un modèle d'apprentissage profond lorsqu'il s'agit de tâches liées à la recherche d'informations visuelles, comme la détection et l'identification de différents objets dans une image. Par exemple, considère un modèle de détection d'objets analysant une photo contenant un chien, un chat et une voiture. Un modèle fiable peut effectuer la détection d'objets en reconnaissant chaque objet et en traçant des boîtes englobantes et des étiquettes autour, mettant en évidence où il se trouve et ce qu'il est.
La mAP indique à quel point le modèle exécute cette tâche sur de nombreuses images et différents types d'objets. Elle vérifie si le modèle identifie avec précision chaque objet et son emplacement dans l'image. Le score varie de 0 à 1, où un signifie que le modèle a tout trouvé parfaitement, et zéro signifie qu'il n'a détecté aucun objet.
Link to this sectionConcepts clés de la précision moyenne (mAP)#
Avant d'explorer les concepts derrière la précision moyenne en apprentissage automatique, comprenons mieux deux termes fondamentaux : la vérité terrain et les prédictions.
La vérité terrain fait référence aux données de référence précises, où les objets et leurs emplacements dans l'image sont soigneusement étiquetés par des humains via un processus appelé annotation. Pendant ce temps, les prédictions sont les résultats fournis par les modèles d'IA après avoir analysé une image. En comparant les prédictions du modèle d'IA à la vérité terrain, nous pouvons mesurer à quel point le modèle s'est approché des résultats corrects.

Fig 1. La prédiction du modèle et les boîtes englobantes de vérité terrain. Image de l'auteur.
Link to this sectionMatrice de confusion#
Une matrice de confusion est souvent utilisée pour comprendre la précision d'un modèle de détection d'objets. C'est un tableau qui montre comment les prédictions du modèle correspondent aux réponses correctes réelles (vérité terrain). À partir de ce tableau, nous pouvons obtenir une répartition de quatre composants ou résultats clés : vrais positifs, faux positifs, faux négatifs et vrais négatifs.
Voici ce que ces composants représentent dans la matrice de confusion :
- Vrai positif (TP) : Un objet et son emplacement sont correctement détectés par le modèle.
- Faux positif (FP) : Le modèle a effectué une détection, mais elle était incorrecte.
- Faux négatif (FN) : Un objet qui était réellement présent dans l'image, mais que le modèle n'a pas réussi à détecter.
- Vrai négatif (TN) : Les vrais négatifs surviennent lorsque le modèle identifie correctement l'absence d'un objet.
Les vrais négatifs ne sont pas couramment utilisés dans la détection d'objets, car nous ignorons généralement les nombreuses régions vides dans une image. Cependant, c'est essentiel dans d'autres tâches de vision par ordinateur, comme la classification d'images, où le modèle attribue une étiquette à l'image. Par exemple, si la tâche est de détecter si une image contient un chat ou non, et que le modèle identifie correctement « pas de chat » quand l'image n'en contient pas, c'est un vrai négatif.

Fig 2. Résultats de classification dans une matrice de confusion. Image de l'auteur.
Link to this sectionIntersection sur Union (IoU)#
Une autre mesure vitale pour évaluer les modèles de détection d'objets est l'Intersection sur Union (IoU). Pour de tels modèles d'IA de vision, détecter simplement la présence d'un objet dans une image ne suffit pas ; il doit aussi localiser où il se trouve dans une image pour tracer des boîtes englobantes.
La mesure IoU évalue à quel point la boîte prédite par le modèle correspond à la boîte correcte réelle (vérité terrain). Le score se situe entre 0 et 1, où 1 signifie une correspondance parfaite et 0 signifie aucune superposition du tout.
Par exemple, une IoU plus élevée (comme 0,80 ou 0,85) signifie que la boîte prédite est une correspondance proche de la boîte de vérité terrain, indiquant une localisation précise. Une IoU plus faible (comme 0,30 ou 0,25) signifie que le modèle n'a pas localisé l'objet avec précision.
Pour déterminer si une détection est réussie, nous utilisons différents seuils. Un seuil IoU courant est 0,5, ce qui signifie qu'une boîte prédite doit se superposer à la boîte de vérité terrain d'au moins 50 % pour être comptée comme un vrai positif. Toute superposition inférieure à ce seuil est considérée comme un faux positif.

Fig 3. Comprendre l'Intersection sur Union. Image de l'auteur.
Link to this sectionPrécision et rappel#
Jusqu'ici, nous avons exploré quelques mesures d'évaluation de base pour comprendre la performance des modèles de détection d'objets. En s'appuyant sur cela, deux des mesures les plus importantes sont la précision et le rappel. Elles nous donnent une image claire de la précision des détections du modèle. Examinons de quoi il s'agit.
Les valeurs de précision nous disent combien des prédictions du modèle étaient réellement correctes. Elle répond à la question : parmi tous les objets que le modèle a prétendu détecter, combien étaient vraiment là ?
Les valeurs de rappel, d'autre part, mesurent à quel point le modèle trouve tous les objets réels présents dans l'image. Il répond à la question : parmi tous les objets réels présents, combien le modèle a-t-il correctement détectés ?
Ensemble, la précision et le rappel nous donnent une image plus claire de la performance d'un modèle. Par exemple, si un modèle prédit 10 voitures dans une image et que 9 d'entre elles sont effectivement des voitures, il a une précision de 90 % (une prédiction positive).
Ces deux mesures d'évaluation impliquent souvent un compromis : un modèle peut atteindre une valeur de précision élevée en ne faisant que des prédictions dont il est pleinement confiant, mais cela peut lui faire manquer beaucoup d'objets, ce qui réduit le niveau de rappel. Pendant ce temps, il peut aussi atteindre un rappel très élevé en prédisant une boîte englobante presque partout, mais cela réduirait la précision.

Fig 4. Précision et rappel. Image de l'auteur.
Link to this sectionPrécision moyenne#
Alors que la précision et le rappel nous aident à comprendre comment un modèle se comporte sur des prédictions individuelles, la précision moyenne (AP) peut fournir une vue plus large. Elle illustre comment la précision du modèle change lorsqu'il tente de détecter plus d'objets, et résume sa performance en un seul chiffre.
Pour calculer le score de précision moyenne, nous pouvons d'abord créer une mesure combinée en forme de graphique appelée courbe précision-rappel (ou courbe PR) pour chaque type d'objet. Cette courbe montre ce qui se passe à mesure que le modèle fait plus de prédictions.
Considère un scénario où le modèle commence par détecter uniquement les objets les plus faciles ou les plus évidents. À ce stade, la précision est élevée car la plupart des prédictions sont correctes, mais le rappel est faible car beaucoup d'objets manquent encore. À mesure que le modèle essaie de détecter plus d'objets, y compris les plus difficiles ou les plus rares, il introduit généralement plus d'erreurs. Cela provoque une baisse de la précision tandis que le rappel augmente.
La précision moyenne est l'aire sous la courbe (AUC de la courbe PR). Une aire plus grande signifie que le modèle est meilleur pour maintenir ses prédictions précises, même lorsqu'il détecte plus d'objets. L'AP est calculée séparément pour chaque étiquette de classe.
Par exemple, dans un modèle capable de détecter des voitures, des vélos et des piétons, nous pouvons calculer les valeurs AP individuellement pour chacune de ces trois catégories. Cela nous aide à voir quels objets le modèle est doué pour détecter et où il pourrait encore avoir besoin d'amélioration.

Fig 5. Une courbe PR pour cinq classes différentes. (Source)
Link to this sectionPrécision moyenne (mAP)#
Après avoir calculé la précision moyenne pour chaque classe d'objet, nous avons encore besoin d'un score unique qui reflète la performance globale du modèle sur toutes les classes. Cela peut être réalisé en utilisant la formule de la précision moyenne. Elle fait la moyenne des scores AP pour chaque catégorie.
Par exemple, supposons qu'un modèle de vision par ordinateur comme YOLO11 atteigne une AP de 0,827 pour les voitures, 0,679 pour les motos, 0,355 pour les camions, 0,863 pour les bus et 0,982 pour les vélos. En utilisant la formule mAP, nous pouvons additionner ces nombres et diviser par le nombre total de classes comme suit :
mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743
Le score mAP de 0,743 fournit une solution simple pour juger à quel point le modèle performe sur toutes les classes d'objets. Une valeur proche de 1 signifie que le modèle est précis pour la plupart des catégories, tandis qu'une valeur plus faible suggère qu'il a du mal avec certaines.
Link to this sectionSignification de l'AP et de la mAP en vision par ordinateur#
Maintenant que nous comprenons mieux comment l'AP et la mAP sont calculées et quels sont leurs composants, voici un aperçu de leur importance en vision par ordinateur :
-
Faible AP pour une classe spécifique : Une faible AP pour une seule classe signifie souvent que le modèle a du mal avec cette classe d'objet spécifique. Cela peut être dû à des données d'entraînement insuffisantes ou à des défis visuels dans les images, comme l'occlusion.
-
Erreurs de localisation : Une valeur mAP plus élevée à un seuil IoU plus faible (comme mAP@0.50) combinée à une baisse significative à un seuil IoU plus élevé (comme mAP@0.75) indique que le modèle peut détecter les objets mais a du mal à les localiser précisément.
-
Surapprentissage : Une valeur mAP plus élevée sur le jeu de données d'entraînement mais une valeur mAP plus faible sur le jeu de données de validation est un signe de surapprentissage, rendant le modèle peu fiable pour de nouvelles images.
Link to this sectionApplications concrètes de la précision moyenne#
Ensuite, explorons comment des mesures clés comme la mAP peuvent aider lors de la création de cas d'utilisation de vision par ordinateur dans le monde réel.
Link to this sectionVéhicules autonomes : Pourquoi une valeur mAP plus élevée signifie des routes plus sûres#
Lorsqu'il s'agit de voitures autonomes, la détection d'objets est cruciale pour identifier les piétons, les panneaux de signalisation, les cyclistes et le marquage au sol. Par exemple, si un enfant traverse soudainement la rue, la voiture a quelques secondes pour détecter l'objet (enfant), localiser où il se trouve, suivre son mouvement et prendre les mesures nécessaires (freiner).
Des modèles comme YOLO11 sont conçus pour la détection d'objets en temps réel dans des scénarios à enjeux élevés. Dans ces cas, la mAP devient une mesure critique de la sécurité.
Un score mAP élevé garantit que le système détecte l'enfant rapidement, le localise précisément et déclenche le freinage avec un retard minimal. Une faible mAP peut signifier des détections manquées ou des classifications erronées dangereuses, comme confondre l'enfant avec un autre petit objet.

Fig 6. Un exemple de YOLO11 utilisé pour détecter des piétons sur la route. (Source)
Link to this sectionUtiliser la mAP pour une détection précise des produits#
De même, dans le secteur de la vente au détail, les modèles de détection d'objets peuvent être utilisés pour automatiser des tâches comme le suivi des stocks et les processus de paiement. Lorsqu'un client scanne un produit à une caisse automatique, une erreur de détection peut causer de la frustration.
Un score mAP élevé assure que le modèle distingue avec précision les produits similaires et trace des boîtes englobantes précises, même lorsque les articles sont étroitement emballés. Un score mAP faible peut entraîner des erreurs. Par exemple, si le modèle prend une bouteille de jus d'orange pour une bouteille de jus de pomme visuellement similaire, cela pourrait entraîner une facturation incorrecte et des rapports d'inventaire imprécis.
Les systèmes de vente au détail intégrés avec des modèles comme YOLO11 peuvent détecter les produits en temps réel, les comparer à l'inventaire et mettre à jour instantanément les systèmes backend. Dans les environnements de vente au détail dynamiques, la mAP joue un rôle crucial pour maintenir des opérations précises et fiables.
Link to this sectionAméliorer la précision du diagnostic avec une mAP élevée dans les soins de santé#
Améliorer la précision du diagnostic dans les soins de santé commence par une détection précise en imagerie médicale. Des modèles comme YOLO11 peuvent aider les radiologues à repérer des tumeurs, des fractures ou d'autres anomalies sur ces examens médicaux. Ici, la précision moyenne est une mesure essentielle pour évaluer la fiabilité clinique d'un modèle.
Une mAP élevée indique que le modèle atteint à la fois un rappel élevé (identifier la plupart des problèmes réels) et une précision élevée (éviter les fausses alertes), ce qui est crucial dans la prise de décision clinique. De plus, le seuil IoU dans les soins de santé est souvent fixé très haut (0,85 ou 0,90) pour garantir une détection extrêmement précise.
Cependant, un score mAP faible peut soulever des inquiétudes. Disons qu'un modèle manque une tumeur ; cela pourrait retarder le diagnostic ou mener à un traitement incorrect.
Link to this sectionAvantages et inconvénients de l'utilisation de la mAP#
Voici les principaux avantages de l'utilisation de la précision moyenne pour évaluer les modèles de détection d'objets :
-
Mesure standardisée : La mAP est la norme de l'industrie pour évaluer les modèles de détection d'objets. Une valeur mAP permet des comparaisons justes et cohérentes entre différents modèles.
-
Reflète les performances dans le monde réel : Une mAP élevée indique que le modèle excelle à détecter diverses classes d'objets et maintient une forte performance dans des scénarios complexes du monde réel.
-
Diagnostics par classe : Un score mAP évalue la performance de détection pour chaque classe individuellement. Cela facilite l'identification des catégories sous-performantes (comme les vélos ou les panneaux de signalisation) et permet d'affiner le modèle en conséquence.
Bien qu'il existe divers avantages à utiliser la mesure mAP, il y a quelques limitations à considérer. Voici quelques facteurs à prendre en compte :
-
Difficile pour les parties prenantes non techniques : Les équipes commerciales ou cliniques peuvent trouver les valeurs mAP abstraites, contrairement à des mesures plus intuitives et faciles à comprendre.
-
Ne reflète pas les contraintes en temps réel : La mAP ne tient pas compte de la vitesse d'inférence ou de la latence, qui sont cruciales pour le déploiement dans des applications sensibles au temps.
Link to this sectionPoints clés#
Nous avons vu que la précision moyenne n'est pas seulement un score technique, mais un reflet de la performance potentielle d'un modèle dans le monde réel. Que ce soit dans un système de véhicule autonome ou une caisse de vente au détail, un score mAP élevé sert d'indicateur fiable de la performance et de la préparation pratique d'un modèle.
Bien que la mAP soit une mesure essentielle et impactante, elle doit être vue comme faisant partie d'une stratégie d'évaluation complète. Pour les applications critiques telles que les soins de santé et la conduite autonome, il ne suffit pas de se reposer uniquement sur la mAP.
Des facteurs supplémentaires comme la vitesse d'inférence (à quelle vitesse le modèle fait des prédictions), la taille du modèle (impactant le déploiement sur des appareils de pointe) et l'analyse qualitative des erreurs (comprendre les types d'erreurs que le modèle fait) doivent également être pris en compte pour s'assurer que le système est sûr, efficace et vraiment adapté à son objectif prévu.
Rejoins notre communauté grandissante et notre dépôt GitHub pour en savoir plus sur la vision par ordinateur. Explore nos pages de solutions pour en apprendre sur les applications de la vision par ordinateur dans l'agriculture et de l'IA dans la logistique. Consulte nos options de licence pour commencer dès aujourd'hui avec ton propre modèle de vision par ordinateur !






