Exactitude vs précision vs rappel en machine learning
Apprends l'exactitude, la précision et le rappel en machine learning. Explore la matrice de confusion, le score F1 et comment utiliser ces mesures d'évaluation vitales.

L'apprentissage automatique (ML) est une branche de l'intelligence artificielle (IA) qui se concentre sur la création de systèmes apprenant à partir de données. Il joue un rôle central dans de nombreux autres domaines de l'IA, notamment la vision par ordinateur, où les machines interprètent des images, et le traitement du langage naturel, où elles comprennent et génèrent du langage humain.
Souvent, de tels modèles d'IA utilisent des techniques d'apprentissage profond pour effectuer des prédictions à partir de données. Bien que ces systèmes puissent être très efficaces, ils ne produisent pas toujours des prédictions correctes. Certaines sorties peuvent être exactes, tandis que d'autres manquent leur cible.
Comprendre comment ces erreurs se produisent est un élément clé pour évaluer la performance d'un modèle. Pour mesurer la performance, nous pouvons utiliser des métriques d'évaluation de modèle.
Les métriques d'évaluation courantes incluent l'exactitude (exactitude globale), la précision (fiabilité des prédictions positives) et le rappel (capacité du modèle à identifier les vrais positifs). Elles peuvent sembler similaires au premier abord, mais chacune se concentre sur un aspect différent du comportement d'un modèle.
Dans cet article, nous examinerons de plus près chacune de ces métriques de performance des modèles d'IA. Nous explorerons également leur relation et comment choisir la bonne pour ton cas d'utilisation. Commençons !
Link to this sectionLes métriques d'évaluation de modèle comptent en apprentissage automatique#
Un modèle d'apprentissage automatique peut sembler bien fonctionner au début. Mais sans les bonnes métriques d'évaluation, il est difficile de comprendre à quel point ses résultats sont exacts. Ces métriques donnent une structure à l'évaluation du modèle et aident à répondre à une question clé : les prédictions du modèle sont-elles utiles et fiables pour une tâche donnée ?
Des métriques telles que l'exactitude, la précision et le rappel offrent aux développeurs d'IA un moyen clair de mesurer les performances d'un modèle. Par exemple, lors de la comparaison de différents modèles, ces métriques permettent de voir lequel fonctionne le mieux pour une tâche spécifique. Elles aident à évaluer la performance et guident le choix du modèle qui correspond le mieux aux objectifs d'un projet d'IA.

Fig 1. Flux de travail d'entraînement et d'évaluation du modèle (Source)
Ces métriques rendent également les comparaisons de performances plus objectives. Au lieu de se fier à des conjectures ou à des observations incomplètes, elles fournissent des informations mesurables sur le comportement d'un modèle dans différentes situations. Ce faisant, elles mettent en évidence les aspects de la performance qui importent le plus dans chaque contexte.
Par exemple, le choix de la métrique dépend souvent de l'application. Dans les applications d'IA en santé, le rappel est important car l'objectif est d'identifier autant de cas positifs que possible, même si certains cas négatifs sont signalés par erreur. À l'inverse, un filtre anti-spam peut privilégier la précision pour éviter de marquer par erreur des e-mails légitimes comme étant du spam.
Link to this sectionLa matrice de confusion : Le fondement des métriques de classification#
La matrice de confusion est un tableau deux-par-deux fondamental pour l'évaluation des modèles d'IA. Il organise les prédictions en quatre catégories en comparant les résultats réels avec les résultats prédits (les réponses données par le modèle).
Cette comparaison fournit une vue détaillée de la performance du modèle. Elle constitue la base des métriques d'évaluation clés comme la précision et le rappel, qui sont calculées directement à partir des valeurs de la matrice.
Les lignes du tableau représentent les classes réelles et les colonnes représentent les classes prédites. Chaque cellule affiche le nombre de résultats dans cette catégorie. Pour faire simple, elle montre combien de prédictions étaient correctes et quels types d'erreurs le modèle a commis.
La matrice de confusion est particulièrement utile lorsque les données sont déséquilibrées, ce qui signifie que certaines catégories ont beaucoup plus d'exemples que d'autres. Elle est également utile lorsque différents types d'erreurs ont des coûts différents.
Par exemple, dans la détection de la fraude, repérer une activité frauduleuse est crucial, mais marquer par erreur des transactions réelles peut également causer des problèmes. La matrice rend clair la fréquence à laquelle chaque type d'erreur se produit.
Link to this sectionÉléments de la matrice de confusion#
Voici un aperçu des différents éléments d'une matrice de confusion :
- Vrai positif (TP) : Lorsque le modèle prédit correctement une instance positive, il est enregistré comme un vrai positif. Par exemple, un modèle de vision par ordinateur classifie correctement un véhicule dans une image.
- Vrai négatif (TN) : Un vrai négatif se produit lorsque le modèle identifie correctement une instance négative. Par exemple, un classificateur d'e-mails marque un message ordinaire comme n'étant pas du spam.
- Faux positif (FP) : Le modèle génère un faux positif lorsqu'il prédit incorrectement un résultat positif pour une instance qui est réellement négative. Aussi connu sous le nom d'Erreur de type I, cela peut arriver lorsqu'un système de détection de fraude signale une transaction valide comme étant frauduleuse.
- Faux négatif (FN) : Un faux négatif est enregistré lorsque le modèle échoue à détecter un cas positif et le prédit incorrectement comme négatif. Aussi appelé Erreur de type II, cela peut se produire lorsqu'un outil de diagnostic manque une maladie chez un patient qui est réellement malade.

Fig 2. Les éléments d'une matrice de confusion (Source)
Link to this sectionReprésentation visuelle et interprétation de la matrice de confusion#
Une matrice de confusion est affichée sous forme de grille. L'axe vertical montre les classes réelles et l'axe horizontal montre les classes prédites. Les prédictions correctes apparaissent le long de la diagonale, représentant les vrais positifs et les vrais négatifs.
Les erreurs se trouvent en dehors de la diagonale, couvrant les faux positifs et les faux négatifs. Cette structure rend facile l'identification des forces et des faiblesses.
Link to this sectionQu'est-ce que l'exactitude en apprentissage automatique ?#
L'exactitude est l'une des métriques les plus utilisées pour évaluer la performance d'un modèle d'apprentissage automatique. Elle mesure la fréquence à laquelle les prédictions sont correctes parmi toutes les classes. En d'autres termes, elle répond à une question simple : sur toutes les prédictions effectuées par le modèle d'IA, combien étaient correctes ?
La formule de l'exactitude est le nombre de prédictions correctes (incluant les vrais positifs et les vrais négatifs) divisé par le nombre total de prédictions. L'exactitude est simple à calculer et facile à comprendre, ce qui en fait un point de départ courant dans l'évaluation des modèles.
Généralement, l'exactitude est fiable lors du traitement de jeux de données équilibrés. Cependant, elle peut souvent être trompeuse dans les jeux de données déséquilibrés où une classe domine les autres. Un modèle qui prédit toujours la classe majoritaire peut tout de même obtenir un score d'exactitude élevé tout en échouant à détecter d'autres classes minoritaires.
Par exemple, dans un jeu de données d'images où seules quelques images contiennent des piétons, un modèle qui prédit « pas de piéton » pour chaque image peut tout de même atteindre une exactitude élevée mais échouer complètement à détecter les piétons réels.
C'est parce que l'exactitude seule ne montre pas quels types d'erreurs un modèle commet ni leur fréquence. C'est pourquoi il est important d'examiner également des métriques comme la précision et le rappel pour comprendre pleinement le fonctionnement d'un modèle d'IA.
Link to this sectionPlongée dans la précision : Minimiser les fausses alertes#
La précision est une métrique d'évaluation clé qui mesure la justesse des prédictions positives d'un modèle. Elle répond à la question : parmi toutes les instances prédites comme positives, combien étaient correctes ?
La formule de précision est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux positifs. Elle est particulièrement importante lorsqu'une prédiction positive serait coûteuse si elle s'avérait fausse.

Fig 3. Comparaison de l'exactitude et de la précision. (Source)
Par exemple, dans la détection de la fraude, un modèle avec une faible précision peut signaler de nombreuses transactions valides comme étant frauduleuses, créant des problèmes inutiles pour les utilisateurs et les équipes de support. Un modèle avec une haute précision réduit ce risque en s'assurant que les transactions signalées sont plus susceptibles d'être une réelle fraude.
Bien qu'une haute précision soit une bonne chose, les modèles qui se concentrent trop dessus peuvent devenir très sélectifs, manquant ainsi de vrais cas positifs. C'est pourquoi la métrique de précision est souvent vérifiée avec le rappel pour maintenir une performance équilibrée.
Link to this sectionQu'est-ce que le rappel ?#
Le rappel est une métrique utilisée pour mesurer la capacité d'un modèle à identifier les cas positifs réels. Il est connu sous le nom de sensibilité ou taux de vrais positifs, et il répond à la question : parmi toutes les instances positives réelles, combien le modèle a-t-il détecté correctement ?
La formule du rappel est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux négatifs. Un score de rappel élevé montre que le modèle capture la plupart des cas positifs réels dans les données.
Le rappel est essentiel dans des secteurs comme la santé, où l'incapacité à détecter une pathologie peut retarder le traitement et mettre les patients en danger. Même si certains cas négatifs sont signalés par erreur, identifier tous les cas réels reste la priorité absolue.
Cependant, les modèles qui se concentrent uniquement sur le rappel peuvent signaler trop de faux positifs, ce qui réduit la précision et nuit à l'efficacité globale du modèle. Équilibrer le rappel et la précision est crucial pour une performance de modèle d'IA fiable.
Link to this sectionL'exercice d'équilibre : Le compromis entre précision et rappel#
La précision et le rappel évoluent souvent dans des directions opposées. Lorsque l'un s'améliore, l'autre peut diminuer. Ce compromis est un défi courant dans les tâches d'apprentissage automatique.
Un modèle à haute précision prédit quelque chose comme positif seulement lorsqu'il est confiant. Cela réduit les fausses alertes mais peut manquer de vrais positifs, ce qui diminue le rappel. Un modèle qui essaie de capturer chaque positif augmente le rappel mais risque davantage de fausses alertes, ce qui diminue la précision.
Ce compromis devient plus clair lorsque tu ajustes le seuil de décision du modèle. Le seuil est la limite qu'un système utilise pour transformer un score ou une probabilité en une action ou une étiquette. Abaisser le seuil fait que le système agit positivement plus souvent, ce qui peut augmenter le rappel mais peut réduire la précision. Augmenter le seuil a l'effet inverse : le modèle prédit moins de positifs, la précision s'améliore, mais le rappel diminue généralement.
Disons que tu travailles sur la détection de spam. Le modèle doit équilibrer le risque de laisser passer du spam dans la boîte de réception avec le risque de bloquer des e-mails réels. Un filtre strict peut tout de même manquer du spam, tandis qu'un filtre plus laxiste peut accidentellement bloquer des messages légitimes. Le bon équilibre dépend du cas d'utilisation et du coût de chaque type d'erreur.
Link to this sectionL'importance de la courbe précision-rappel#
La courbe précision-rappel (ou courbe PR) montre comment la précision et le rappel changent à mesure que le seuil de décision du modèle change. Chaque point représente un compromis différent entre les deux. La courbe PR est particulièrement utile pour les jeux de données déséquilibrés, où une classe est beaucoup moins fréquente.
Elle fournit également des informations plus significatives que la courbe ROC (Receiver Operating Characteristic), qui montre également à quel point un modèle sépare les positifs des négatifs à différents seuils de décision. Un modèle ayant à la fois une haute précision et un haut rappel aura une courbe précision-rappel qui reste près du coin supérieur droit, ce qui est généralement idéal.
Link to this sectionPrésentation du score F1 : Une métrique combinée pour l'équilibre#
Le score F1 fournit une valeur unique qui capture l'équilibre entre la précision et le rappel. Le score F1 est calculé comme étant deux fois le produit de la précision et du rappel, divisé par la somme de la précision et du rappel. Il est utile lorsque les faux positifs et les faux négatifs importent tous les deux, et il aide lors du travail avec des jeux de données déséquilibrés ou lorsqu'une vision équilibrée de la performance du modèle est nécessaire.

Fig 4. Calcul du score F1 en utilisant la précision et le rappel (Source)
Link to this sectionAu-delà de l'exactitude, de la précision et du rappel#
Bien que l'exactitude, la précision et le rappel soient essentiels, d'autres métriques offrent des informations supplémentaires basées sur le type de modèle et les caractéristiques du jeu de données.
Voici quelques métriques couramment utilisées qui aident à évaluer différents aspects de la performance :
- Spécificité : Elle mesure la capacité du modèle à identifier les négatifs réels. Elle est utile lorsqu'éviter les faux positifs est important.
- AUC** :** L'AUC, ou Aire sous la courbe, donne un score unique qui reflète la capacité du modèle à distinguer les classes.
- Log loss : La log loss est utilisée pour mesurer la confiance d'un modèle lors de ses prédictions et pénalise davantage les prédictions erronées faites avec une confiance élevée. Ici, la confiance fait référence à quel point le modèle est sûr de sa prédiction.
- Évaluation multi-étiquette : Dans les tâches multi-étiquettes, les métriques sont moyennées sur les étiquettes pour refléter la performance globale du modèle.
Link to this sectionAppliquer l'exactitude, la précision et le rappel en vision par ordinateur#
Maintenant que nous avons une compréhension plus claire de l'exactitude, de la précision et du rappel, voyons comment ces métriques sont appliquées en vision par ordinateur.
Les modèles de vision par ordinateur comme Ultralytics YOLO11 prennent en charge des tâches telles que la détection d'objets, où le modèle identifie quels objets sont présents dans une image et les localise en utilisant des boîtes englobantes (bounding boxes). Chaque prédiction inclut à la fois l'étiquette de l'objet et sa position, ce qui rend l'évaluation plus complexe que la simple vérification si une étiquette est correcte.

Fig 5. Un exemple d'utilisation d'Ultralytics YOLO11 pour la détection d'objets. (Source)
Considérons une application de commerce de détail où des caméras sont utilisées pour suivre automatiquement les produits sur les étagères. Un modèle de détection d'objets peut identifier des articles comme des boîtes de céréales, des canettes de soda ou des bouteilles d'eau et marquer leurs positions.
Dans ce cas, la précision nous indique combien des articles détectés sont réellement corrects. Une haute précision signifie que le système évite les faux positifs, comme marquer une ombre ou un objet en arrière-plan comme étant un produit. Le rappel montre combien de produits réels sur l'étagère le modèle a réussi à détecter. Un haut rappel signifie que moins d'articles sont manqués, ce qui est critique pour des inventaires précis.
L'exactitude peut toujours fournir une mesure générale de la justesse, mais dans ce type de cadre, manquer même quelques produits ou détecter des articles qui ne sont pas là peut avoir un grand impact sur la gestion des stocks. C'est pourquoi les développeurs examinent ensemble la précision, le rappel et l'exactitude pour s'assurer que le système est à la fois fiable et pratique pour un usage réel.
Link to this sectionExactitude, précision et rappel : Points clés à retenir#
L'exactitude, la précision et le rappel mettent chacun en évidence différents aspects de la performance d'un modèle d'apprentissage automatique. Se fier à une seule métrique peut être trompeur.
Les outils et métriques comme la matrice de confusion, les courbes précision-rappel et le score F1 aident à révéler les compromis et guident les décisions sur les améliorations à apporter au modèle ML. En choisissant la bonne combinaison de métriques pour une solution d'IA spécifique, tu peux t'assurer que les modèles sont exacts, fiables et efficaces dans les applications réelles.
Explore notre communauté grandissante ! Consulte notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer tes projets de vision par ordinateur ? Jette un œil à nos options de licence. Découvre l'IA en agriculture et l'IA en vision robotique en visitant nos pages de solutions !






