Précision, exactitude et rappel dans l'apprentissage automatique

Abirami Vina

6 minutes de lecture

20 août 2025

Apprenez ce que sont l'exactitude, la précision et le rappel dans l'apprentissage automatique. Explorez la matrice de confusion, le score F1 et la manière d'utiliser ces mesures d'évaluation essentielles.

L'apprentissage automatique est une branche de l'intelligence artificielle (IA) qui se concentre sur la création de systèmes qui apprennent à partir de données. Il joue un rôle central dans de nombreux autres domaines de l'IA, notamment la vision artificielle, où les machines interprètent les images, et le traitement du langage naturel, où elles comprennent et génèrent le langage humain.

Souvent, ces modèles d'IA utilisent des techniques d'apprentissage profond pour faire des prédictions à partir de données. Bien que ces systèmes puissent être très efficaces, ils ne produisent pas toujours des prédictions correctes. Certains résultats peuvent être exacts, tandis que d'autres manquent la cible. 

Savoir comment ces erreurs se produisent est un élément clé de l'évaluation des performances d'un modèle. Pour mesurer les performances, nous pouvons utiliser des métriques d'évaluation des modèles

Les mesures d'évaluation courantes comprennent la précision (exactitude générale), l'exactitude (fiabilité des prédictions positives) et le rappel (efficacité avec laquelle le modèle identifie les vrais positifs). Ces mesures peuvent sembler similaires à première vue, mais chacune d'entre elles se concentre sur un aspect différent du comportement d'un modèle. 

Dans cet article, nous allons examiner de plus près chacune de ces mesures de performance des modèles d'IA. Nous verrons également comment elles sont liées les unes aux autres et comment choisir celle qui convient le mieux à votre cas d'utilisation. C'est parti !

Les métriques d'évaluation des modèles sont importantes dans l'apprentissage automatique

Un modèle d'apprentissage automatique peut sembler performant à première vue. Mais sans les bonnes mesures d'évaluation, il est difficile de comprendre à quel point ses résultats sont précis. Ces mesures structurent l'évaluation des modèles et permettent de répondre à une question clé : Les prédictions du modèle sont-elles utiles et fiables pour une tâche donnée ?

Les mesures telles que l'exactitude, la précision et le rappel donnent aux développeurs d'IA un moyen clair de mesurer l'efficacité d'un modèle. Par exemple, lorsque l'on compare différents modèles, ces mesures permettent de voir lequel est le plus performant pour une tâche spécifique. Elles permettent d'évaluer les performances et d'orienter le choix du modèle qui correspond le mieux aux objectifs d'un projet d'IA.

Fig. 1. Flux de travail pour la formation et l'évaluation des modèles(Source)

Ces mesures rendent également les comparaisons de performances plus objectives. Au lieu de s'appuyer sur des suppositions ou des observations incomplètes, elles fournissent des informations mesurables sur le comportement d'un modèle dans différentes situations. Ce faisant, elles mettent en évidence les aspects de la performance qui comptent le plus dans chaque contexte.

Par exemple, le choix de la métrique dépend souvent de l'application. Dans les applications d'IA pour la santé, le rappel est important car l'objectif est d'identifier autant de cas positifs que possible, même si certains cas négatifs sont marqués par erreur. En revanche, un filtre anti-spam peut donner la priorité à la précision afin d'éviter que des courriels légitimes soient incorrectement marqués comme étant du spam.

La matrice de confusion : Le fondement des mesures de classification

La matrice de confusion est un tableau deux par deux fondamental pour l'évaluation des modèles d'IA. Elle classe les prédictions en quatre catégories en comparant les résultats réels aux résultats prédits (les réponses données par le modèle). 

Cette comparaison fournit une vue détaillée des performances du modèle. Elle constitue la base des mesures d'évaluation clés telles que la précision et le rappel, qui sont calculées directement à partir des valeurs de la matrice.

Les lignes du tableau représentent les classes réelles et les colonnes les classes prédites. Chaque cellule indique le nombre de résultats dans cette catégorie. En d'autres termes, le tableau indique le nombre de prédictions correctes et les types d'erreurs commises par le modèle.

La matrice de confusion est particulièrement utile lorsque les données sont déséquilibrées, c'est-à-dire lorsque certaines catégories ont beaucoup plus d'exemples que d'autres. Elle est également utile lorsque les différents types d'erreurs ont des coûts différents. 

Par exemple, dans le cadre de la détection des fraudes, il est essentiel de repérer les activités frauduleuses, mais le signalement incorrect de transactions réelles peut également poser des problèmes. La matrice indique clairement la fréquence de chaque type d'erreur.

Éléments de la matrice de confusion

Voici un aperçu des différents éléments d'une matrice de confusion :

  • Vrai positif (TP) : Lorsque le modèle prédit correctement une instance positive, celle-ci est enregistrée comme un vrai positif. Par exemple, un modèle de vision par ordinateur classe correctement un véhicule dans une image.

  • Vrai négatif (TN) : Un vrai négatif se produit lorsque le modèle identifie correctement une instance négative. Par exemple, un classificateur de courrier électronique identifie un message normal comme n'étant pas du spam.

  • Faux positif (FP) : le modèle génère un faux positif lorsqu'il prédit à tort un résultat positif pour une instance qui est en fait négative. Également connu sous le nom d'erreur de type I, ce type d'erreur peut se produire lorsqu'un système de détection des fraudes signale une transaction valide comme frauduleuse.

  • Faux négatif (FN) : Un faux négatif est enregistré lorsque le modèle ne détecte pas un cas positif et le prédit à tort comme négatif. Également appelé erreur de type II, ce type d'erreur peut se produire lorsqu'un outil de diagnostic ne détecte pas une maladie chez un patient qui est en fait malade.
Fig. 2. Les éléments d'une matrice de confusion(Source)

Représentation visuelle et interprétation de la matrice de confusion

Une matrice de confusion est affichée sous forme de grille. L'axe vertical représente les classes réelles et l'axe horizontal les classes prédites. Les prédictions correctes apparaissent le long de la diagonale, représentant les vrais positifs et les vrais négatifs.

Les erreurs se situent en dehors de la diagonale, couvrant les faux positifs et les faux négatifs. Cette structure permet de repérer facilement les points forts et les points faibles.

Qu'est-ce que la précision dans l'apprentissage automatique ?

La précision est l'une des mesures les plus utilisées pour évaluer les performances d'un modèle d'apprentissage automatique. Elle mesure la fréquence à laquelle les prédictions sont correctes pour toutes les classes. En d'autres termes, elle répond à une question simple : Parmi toutes les prédictions faites par le modèle d'IA, combien étaient justes ?

La formule de la précision est le nombre de prédictions correctes (qui comprend les vrais positifs et les vrais négatifs) divisé par le nombre total de prédictions. La précision est simple à calculer et facile à comprendre, ce qui en fait un point de départ courant dans l'évaluation des modèles.

En règle générale, la précision est fiable lorsqu'il s'agit d'ensembles de données équilibrés. Cependant, elle peut souvent être trompeuse dans les ensembles de données déséquilibrés où une classe domine les autres. Un modèle qui prédit toujours la classe majoritaire peut obtenir un score de précision élevé tout en ne détectant pas d'autres classes minoritaires.

Par exemple, dans un ensemble de données d'images où seules quelques images contiennent des piétons, un modèle qui prédit "pas de piéton" pour chaque image peut encore atteindre une grande précision mais échouer complètement à détecter les piétons réels.

En effet, la précision en elle-même n'indique pas les types d'erreurs commises par un modèle ni la fréquence à laquelle elles se produisent. C'est pourquoi il est important d'examiner également des mesures telles que la précision et le rappel pour comprendre pleinement le fonctionnement d'un modèle d'IA.

Plongée dans la précision : Minimiser les fausses alertes

La précision est un paramètre d'évaluation clé qui mesure l'exactitude des prédictions positives d'un modèle. Elle répond à la question suivante : Parmi toutes les instances prédites comme positives, combien étaient correctes ?

La formule de précision est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux positifs. Elle est particulièrement importante lorsqu'une prédiction positive serait coûteuse si elle s'avérait erronée.

Fig. 3. Comparaison de l'exactitude et de la précision.(Source)

Par exemple, dans le cadre de la détection des fraudes, un modèle peu précis peut signaler de nombreuses transactions valides comme étant frauduleuses, ce qui crée des problèmes inutiles pour les utilisateurs et les équipes d'assistance. Un modèle à haute précision réduit ce risque en s'assurant que les transactions signalées sont plus susceptibles d'être des fraudes réelles.

S'il est bon d'avoir une grande précision, les modèles qui se concentrent trop sur celle-ci peuvent devenir très sélectifs et ne pas prendre en compte les cas positifs réels. C'est pourquoi la mesure de la précision est souvent vérifiée en même temps que le rappel, afin de maintenir l'équilibre des performances.

Qu'est-ce que le rappel ?

Le rappel est une mesure utilisée pour évaluer l'efficacité d'un modèle à identifier les cas positifs réels. Il est connu sous le nom de sensibilité ou de taux de vrais positifs et répond à la question suivante : Sur l'ensemble des cas positifs réels, combien le modèle a-t-il détecté correctement ?

La formule de rappel est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux négatifs. Un score de rappel élevé indique que le modèle capture la plupart des cas positifs réels dans les données. 

Le rappel est essentiel dans des secteurs tels que les soins de santé, où le fait de ne pas détecter une maladie peut retarder le traitement et mettre les patients en danger. Même si certains cas négatifs sont signalés à tort, l'identification de tous les cas réels reste la priorité absolue.

Cependant, les modèles qui se concentrent uniquement sur le rappel peuvent signaler trop de faux positifs, ce qui diminue la précision et nuit à l'efficacité globale du modèle. Il est essentiel d'équilibrer le rappel et la précision pour garantir la fiabilité des performances des modèles d'IA.

L'exercice d'équilibre : Compromis entre précision et rappel

La précision et le rappel évoluent souvent dans des directions opposées. Lorsque l'une s'améliore, l'autre peut diminuer. Ce compromis est un défi courant dans les tâches d'apprentissage automatique.

Un modèle de haute précision ne prédit un élément comme positif que lorsqu'il est sûr de lui. Cela permet de réduire les fausses alertes, mais de ne pas détecter les vrais positifs, ce qui réduit le taux de rappel. Un modèle qui tente de détecter tous les positifs augmente le taux de rappel, mais risque d'augmenter le nombre de fausses alertes, ce qui réduit la précision.

Ce compromis devient plus clair lorsque vous ajustez le seuil de décision du modèle. Le seuil est la limite qu'un système utilise pour transformer un score ou une probabilité en une action ou une étiquette. En abaissant le seuil, le système agit plus souvent de manière positive, ce qui peut augmenter le rappel mais réduire la précision. Le relèvement du seuil a l'effet inverse : le modèle prédit moins de réponses positives, la précision s'améliore, mais le rappel diminue généralement.

Supposons que vous travailliez sur la détection des spams. Le modèle doit trouver un équilibre entre le risque de laisser du spam dans la boîte de réception et le risque de bloquer de vrais courriels. Un filtre strict peut encore manquer des spams, tandis qu'un filtre plus souple peut accidentellement bloquer des messages légitimes. Le bon équilibre dépend du cas d'utilisation et du coût de chaque type d'erreur.

L'importance de la courbe précision-rappel

La courbe de précision-rappel ou courbe PR montre comment la précision et le rappel évoluent en fonction du seuil de décision du modèle. Chaque point représente un compromis différent entre les deux. La courbe PR est particulièrement utile pour les ensembles de données déséquilibrés, où une classe est beaucoup moins fréquente. 

Elle fournit également des informations plus significatives que la courbe ROC (Receiver Operating Characteristic), qui indique également dans quelle mesure un modèle sépare les positifs des négatifs à différents seuils de décision. Un modèle présentant à la fois une précision et un rappel élevés aura une courbe de précision-rappel proche du coin supérieur droit, ce qui est généralement idéal.

Présentation du score F1 : Une mesure combinée pour l'équilibre

Le score F1 fournit une valeur unique qui reflète l'équilibre entre la précision et le rappel. Le score F1 est calculé comme deux fois le produit de la précision et du rappel, divisé par la somme de la précision et du rappel. Il est utile lorsque les faux positifs et les faux négatifs ont de l'importance et lorsqu'on travaille avec des ensembles de données déséquilibrés ou lorsqu'on a besoin d'une vue équilibrée des performances d'un modèle.

Fig. 4. Calcul du score F1 à l'aide de la précision et du rappel(Source)

Au-delà de l'exactitude, de la précision et de la mémorisation

Si l'exactitude, la précision et le rappel sont essentiels, d'autres mesures offrent des informations supplémentaires en fonction du type de modèle et des caractéristiques de l'ensemble de données. 

Voici quelques indicateurs couramment utilisés pour évaluer différents aspects de la performance :

  • La spécificité : Elle mesure la capacité du modèle à identifier les vrais négatifs. Elle est utile lorsqu'il est important d'éviter les faux positifs.

  • AUC: L'aire sous la courbe (AUC) donne un score unique qui reflète la capacité du modèle à faire la distinction entre les classes.

  • Perte logarithmique : La perte logarithmique est utilisée pour mesurer le degré de confiance d'un modèle lorsqu'il fait des prédictions et pénalise davantage les prédictions erronées faites avec un degré de confiance élevé. Ici, la confiance fait référence au degré de certitude du modèle quant à sa prédiction.

  • Évaluation multi-labels : Dans les tâches multi-labels, la moyenne des mesures est calculée sur l'ensemble des labels afin de refléter les performances globales du modèle.

Application de l'exactitude, de la précision et du rappel dans le domaine de la vision par ordinateur

Maintenant que nous avons une meilleure compréhension de l'exactitude, de la précision et du rappel, voyons comment ces mesures sont appliquées dans le domaine de la vision par ordinateur.

Les modèles de vision artificielle comme Ultralytics YOLO11 prennent en charge des tâches telles que la détection d'objets, où le modèle identifie les objets présents dans une image et les localise à l'aide de boîtes de délimitation. Chaque prédiction comprend à la fois l'étiquette de l'objet et sa position, ce qui rend l'évaluation plus complexe que la simple vérification de l'exactitude d'une étiquette.

Fig. 5. Exemple d'utilisation d'Ultralytics YOLO11 pour la détection d'objets.(Source)

Prenons l'exemple d'une application de vente au détail dans laquelle des caméras sont utilisées pour suivre automatiquement les produits dans les rayons. Un modèle de détection d'objets peut identifier des articles tels que des boîtes de céréales, des canettes de soda ou des bouteilles d'eau et marquer leur position. 

Dans ce cas, la précision indique le nombre d'éléments détectés qui sont réellement corrects. Une précision élevée signifie que le système évite les faux positifs, tels que l'étiquetage d'une ombre ou d'un objet d'arrière-plan comme étant un produit. Le rappel indique le nombre de produits réels présents sur l'étagère que le modèle a réussi à détecter. Un taux de rappel élevé signifie que moins d'articles sont manqués, ce qui est essentiel pour la précision des inventaires.

La précision peut toujours fournir une mesure générale de l'exactitude, mais dans ce type d'environnement, le fait de manquer ne serait-ce que quelques produits ou de détecter des articles qui ne sont pas là peut avoir un impact important sur la gestion des stocks. C'est pourquoi les développeurs examinent ensemble la précision, le rappel et l'exactitude afin de s'assurer que le système est à la fois fiable et pratique pour une utilisation dans le monde réel.

Exactitude, précision et rappel : Principaux enseignements

L'exactitude, la précision et le rappel présentent chacun des aspects différents des performances d'un modèle d'apprentissage automatique. Se fier à une seule mesure peut être trompeur.

Des outils et des mesures tels que la matrice de confusion, les courbes de précision et de rappel et le score F1 permettent de révéler les compromis et d'orienter les décisions sur les améliorations à apporter au modèle de ML. En choisissant la bonne combinaison de mesures pour une solution d'IA spécifique, vous pouvez vous assurer que les modèles sont précis, fiables et efficaces dans les applications du monde réel.

Découvrez notre communauté grandissante ! Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer vos projets de vision par ordinateur ? Consultez nos options de licence. Découvrez l'IA dans l'agriculture et l'IA de vision dans la robotique en visitant nos pages de solutions ! 

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers