Qu'est-ce que l'exactitude, la précision et le rappel dans l'apprentissage automatique Ultralytics

L'apprentissage automatique (AA) est une branche de l'intelligence artificielle (IA) qui se concentre sur la création de systèmes apprenant à partir de données. Il joue un rôle central dans de nombreux autres domaines de l'IA, notamment la vision par ordinateur, où les machines interprètent les images, et le traitement automatique du langage naturel, où elles comprennent et génèrent le langage humain.

Souvent, ces modèles d'IA utilisent des techniques d'apprentissage profond pour faire des prédictions à partir des données. Bien que ces systèmes puissent être très efficaces, ils ne produisent pas toujours des prédictions correctes. Certaines sorties peuvent être précises, tandis que d'autres manquent la cible.

Comprendre comment ces erreurs se produisent est essentiel pour évaluer la performance d'un modèle. Pour mesurer la performance, nous pouvons utiliser des métriques d'évaluation de modèle.

Les métriques d'évaluation courantes comprennent la précision (justesse globale), la justesse (fiabilité des prédictions positives) et le rappel (capacité du modèle à identifier les positifs réels). Elles peuvent sembler similaires au premier abord, mais chacune se concentre sur une partie différente du comportement d'un modèle.

Dans cet article, nous allons examiner de plus près chacune de ces mesures de performance des modèles d'IA. Nous allons également explorer leurs relations et comment choisir la bonne pour votre cas d'utilisation. Commençons !

Les métriques d'évaluation des modèles sont importantes dans l'apprentissage automatique.

Un modèle d'apprentissage automatique peut sembler bien fonctionner au début. Mais sans les bonnes métriques d'évaluation, il est difficile de comprendre la précision de ses résultats. Ces métriques structurent l'évaluation du modèle et aident à répondre à une question clé : les prédictions du modèle sont-elles utiles et fiables pour une tâche donnée ?

Les mesures telles que la précision, la justesse et le rappel donnent aux développeurs d'IA un moyen clair de mesurer l'efficacité d'un modèle. Par exemple, lors de la comparaison de différents modèles, ces mesures permettent de voir lequel est le plus performant pour une tâche spécifique. Elles aident à évaluer les performances et à guider le choix du modèle qui correspond le mieux aux objectifs d'un projet d'IA.

Fig. 1. Flux de travail d'entraînement et d'évaluation du modèle (Source)

‍

Ces métriques rendent également les comparaisons de performances plus objectives. Au lieu de se fier à des suppositions ou à des observations incomplètes, elles fournissent des informations mesurables sur la façon dont un modèle se comporte dans différentes situations. Ce faisant, elles mettent en évidence les aspects de la performance qui comptent le plus dans chaque contexte.

Par exemple, le choix de la métrique dépend souvent de l'application. Dans les applications d'IA pour la santé, le rappel est important car l'objectif est d'identifier autant de cas positifs que possible, même si certains cas négatifs sont signalés par erreur. En revanche, un filtre anti-spam peut privilégier la précision afin d'éviter de marquer incorrectement les courriels légitimes comme spam.

La matrice de confusion : le fondement des métriques de classification

La matrice de confusion est un tableau deux par deux fondamental pour évaluer les modèles d'IA. Elle organise les prédictions en quatre catégories en comparant les résultats réels avec les résultats prédits (les réponses fournies par le modèle).

Cette comparaison fournit une vue détaillée des performances du modèle. Elle constitue la base des principales métriques d'évaluation telles que la précision et le rappel, qui sont calculées directement à partir des valeurs de la matrice.

Les lignes du tableau représentent les classes réelles, et les colonnes représentent les classes prédites. Chaque cellule indique le nombre de résultats dans cette catégorie. En termes simples, il montre le nombre de prédictions correctes et les types d'erreurs commises par le modèle.

La matrice de confusion est particulièrement utile lorsque les données sont déséquilibrées, c'est-à-dire lorsque certaines catégories ont beaucoup plus d'exemples que d'autres. Elle est également utile lorsque différents types d'erreurs entraînent des coûts différents.

Par exemple, dans la détection de fraude, il est essentiel d'attraper les activités frauduleuses, mais signaler incorrectement les transactions réelles peut également causer des problèmes. La matrice indique clairement la fréquence de chaque type d'erreur.

Éléments de la matrice de confusion

Voici un aperçu des différents éléments d'une matrice de confusion :

Vrai positif (VP) : Lorsque le modèle prédit correctement une instance positive, elle est enregistrée comme un vrai positif. Par exemple, un modèle de vision par ordinateur classe correctement un véhicule dans une image.
Vrai négatif (VN) : Un vrai négatif se produit lorsque le modèle identifie correctement une instance négative. Par exemple, un classificateur d’e-mails marque un message normal comme n’étant pas un spam.
Faux positif (FP) : Le modèle génère un faux positif lorsqu'il prédit incorrectement un résultat positif pour une instance qui est en réalité négative. Également connue sous le nom d'erreur de type I, cela peut se produire lorsqu'un système de détection de fraude signale une transaction valide comme frauduleuse.
Faux négatif (FN) : Un faux négatif est enregistré lorsque le modèle ne detect pas un cas positif et le prédit à tort comme négatif. Également appelé erreur de type II, ce type d'erreur peut se produire lorsqu'un outil de diagnostic ne détecte pas une maladie chez un patient qui est en fait malade.

Fig. 2. Les éléments d'une matrice de confusion (Source)

‍

Représentation visuelle et interprétation de la matrice de confusion

Une matrice de confusion est affichée dans un format de grille. L'axe vertical montre les classes réelles, et l'axe horizontal montre les classes prédites. Les prédictions correctes apparaissent le long de la diagonale, représentant les vrais positifs et les vrais négatifs.

Les erreurs se situent en dehors de la diagonale, couvrant les faux positifs et les faux négatifs. Cette structure facilite le repérage des forces et des faiblesses.

Qu'est-ce que la précision dans l'apprentissage automatique ?

La précision est l'une des mesures les plus utilisées pour évaluer les performances d'un modèle d'apprentissage automatique. Elle mesure la fréquence à laquelle les prédictions sont correctes pour toutes les classes. En d'autres termes, elle répond à une question simple : sur toutes les prédictions faites par le modèle d'IA, combien étaient correctes ?

La formule de l'exactitude est le nombre de prédictions correctes (qui comprend à la fois les vrais positifs et les vrais négatifs) divisé par le nombre total de prédictions. L'exactitude est simple à calculer et facile à comprendre, ce qui en fait un point de départ courant dans l'évaluation des modèles.

En règle générale, la précision est fiable lorsqu'il s'agit d'ensembles de données équilibrés. Toutefois, elle peut souvent être trompeuse dans les ensembles de données déséquilibrés où une classe domine les autres. Un modèle qui prédit toujours la classe majoritaire peut obtenir un score de précision élevé tout en ne detect pas d'autres classes minoritaires.

Par exemple, dans un ensemble de données d'images où seules quelques images contiennent des piétons, un modèle qui prédit "pas de piéton" pour chaque image peut encore atteindre une grande précision mais échouer complètement à detect piétons réels.

En effet, la précision seule ne montre pas quels types d'erreurs un modèle commet ni à quelle fréquence. C'est pourquoi il est important d'examiner également des métriques telles que la précision et le rappel pour bien comprendre le fonctionnement d'un modèle d'IA.

Exploration approfondie de la précision : Minimiser les fausses alertes

La précision est une mesure d'évaluation clé qui mesure l'exactitude des prédictions positives d'un modèle. Elle répond à la question suivante : Parmi toutes les instances prédites comme positives, combien étaient correctes ?

La formule de la précision est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux positifs. Elle est particulièrement importante lorsqu'une prédiction positive serait coûteuse si elle s'avérait erronée.

Fig 3. Comparaison de la précision et du rappel. (Source)

‍

Par exemple, dans la détection de fraude, un modèle avec une faible précision peut signaler de nombreuses transactions valides comme frauduleuses, créant des problèmes inutiles pour les utilisateurs et les équipes de support. Un modèle avec une haute précision réduit ce risque en s'assurant que les transactions signalées sont plus susceptibles d'être de réelles fraudes.

Bien qu'une haute précision soit un avantage, les modèles qui se concentrent trop sur celle-ci peuvent devenir très sélectifs, manquant ainsi des cas positifs réels. C'est pourquoi la métrique de précision est souvent vérifiée en même temps que le rappel afin de maintenir un rendement équilibré.

Qu'est-ce que le rappel (recall) ?

Le rappel est une mesure utilisée pour évaluer l'efficacité d'un modèle à identifier les cas positifs réels. Il est connu sous le nom de sensibilité ou de taux de vrais positifs et répond à la question suivante : Sur l'ensemble des cas positifs réels, combien le modèle a-t-il detect correctement ?

La formule du rappel est le nombre de vrais positifs divisé par la somme des vrais positifs et des faux négatifs. Un score de rappel élevé indique que le modèle capture la plupart des cas positifs réels dans les données.

Le rappel est essentiel dans des secteurs tels que les soins de santé, où le fait de ne pas detect une maladie peut retarder le traitement et mettre les patients en danger. Même si certains cas négatifs sont signalés à tort, l'identification de tous les cas réels reste la priorité absolue.

Cependant, les modèles qui se concentrent uniquement sur le rappel peuvent signaler trop de faux positifs, ce qui diminue la précision et nuit à l'efficacité globale du modèle. Il est essentiel d'équilibrer le rappel et la précision pour obtenir des performances fiables du modèle d'IA.

Le compromis : Équilibre entre précision et rappel

La précision et le rappel évoluent souvent dans des directions opposées. Lorsque l'un s'améliore, l'autre peut diminuer. Ce compromis est un défi courant dans les tâches d'apprentissage automatique.

Un modèle de haute précision prédit quelque chose comme positif uniquement lorsqu'il est sûr. Cela réduit les fausses alarmes, mais peut manquer de vrais positifs, ce qui réduit le rappel. Un modèle qui tente d'attraper tous les positifs augmente le rappel, mais risque davantage de fausses alarmes, ce qui réduit la précision.

Ce compromis devient plus clair lorsque vous ajustez le seuil de décision du modèle. Le seuil est la limite qu'un système utilise pour transformer un score ou une probabilité en une action ou une étiquette. Abaisser le seuil incite le système à agir positivement plus souvent, ce qui peut augmenter le rappel, mais peut réduire la précision. Augmenter le seuil a l'effet inverse : le modèle prédit moins de positifs, la précision s'améliore, mais le rappel diminue généralement.

Supposons que vous travaillez sur la détection de spam. Le modèle doit trouver un équilibre entre le risque de laisser passer du spam dans la boîte de réception et le risque de bloquer de vrais e-mails. Un filtre strict peut encore laisser passer du spam, tandis qu'un filtre plus souple peut bloquer accidentellement des messages légitimes. Le bon équilibre dépend du cas d'utilisation et du coût de chaque type d'erreur.

L'importance de la courbe de précision-rappel

La courbe de précision-rappel ou courbe PR montre comment la précision et le rappel varient lorsque le seuil de décision du modèle change. Chaque point représente un compromis différent entre les deux. La courbe PR est particulièrement utile pour les ensembles de données déséquilibrés, où une classe est beaucoup moins fréquente.

Il fournit également des informations plus significatives que la courbe ROC (Receiver Operating Characteristic), qui montre également dans quelle mesure un modèle sépare les positifs des négatifs à différents seuils de décision. Un modèle avec une précision et un rappel élevés aura une courbe de précision-rappel qui reste près du coin supérieur droit, ce qui est généralement idéal.

Présentation du score F1 : une métrique combinée pour l’équilibre

Le score F1 fournit une valeur unique qui capture l'équilibre entre la précision et le rappel. Le score F1 est calculé comme deux fois le produit de la précision et du rappel, divisé par la somme de la précision et du rappel. Il est utile lorsque les faux positifs et les faux négatifs sont importants, et il est utile lorsque vous travaillez avec des ensembles de données déséquilibrés ou lorsqu'une vue équilibrée des performances du modèle est nécessaire.

Fig. 4. Calcul du score F1 à l'aide de la précision et du rappel (Source).

‍

Au-delà de l'exactitude, de la précision et du rappel

Bien que la précision (accuracy), la justesse (precision) et le rappel (recall) soient essentiels, d'autres métriques offrent des informations supplémentaires basées sur le type de modèle et les caractéristiques de l'ensemble de données.

Voici quelques métriques couramment utilisées qui aident à évaluer différents aspects de la performance :

Spécificité : Elle mesure la capacité du modèle à identifier correctement les vrais négatifs. Elle est utile lorsqu'il est important d'éviter les faux positifs.
AUC : L'AUC, ou aire sous la courbe, donne un score unique qui reflète la capacité du modèle à distinguer les classes.
Log loss : La log loss est utilisée pour mesurer le degré de confiance d'un modèle lorsqu'il fait des prédictions et pénalise davantage les prédictions erronées faites avec une grande confiance. Ici, la confiance fait référence au degré de certitude du modèle quant à sa prédiction.
Évaluation multi-étiquettes : Dans les tâches multi-étiquettes, les métriques sont moyennées sur l'ensemble des étiquettes pour refléter la performance globale du modèle.

Application de la précision, justesse et rappel en vision par ordinateur

Maintenant que nous avons une compréhension plus claire de l'exactitude, de la précision et du rappel, voyons comment ces mesures sont appliquées dans la vision par ordinateur.

Modèles de vision par ordinateur comme Ultralytics YOLO11 prennent en charge des tâches telles que la détection d'objets, où le modèle identifie les objets présents dans une image et les localise à l'aide de boîtes de délimitation. Chaque prédiction comprend à la fois l'étiquette de l'objet et sa position, ce qui rend l'évaluation plus complexe que la simple vérification de l'exactitude d'une étiquette.

Fig. 5. Exemple d'utilisation d'Ultralytics YOLO11 pour la détection d'objets.(Source)

‍

Prenons l'exemple d'une application de vente au détail dans laquelle des caméras sont utilisées pour track automatiquement track produits dans les rayons. Un modèle de détection d'objets peut identifier des articles tels que des boîtes de céréales, des canettes de soda ou des bouteilles d'eau et marquer leur position.

Dans ce cas, la précision indique le nombre d'éléments détectés qui sont réellement corrects. Une précision élevée signifie que le système évite les faux positifs, tels que l'étiquetage d'une ombre ou d'un objet d'arrière-plan comme étant un produit. Le rappel indique le nombre de produits réels présents sur l'étagère que le modèle a réussi à detect. Un taux de rappel élevé signifie que moins d'articles sont manqués, ce qui est essentiel pour la précision des inventaires.

La précision peut toujours fournir une mesure générale de l'exactitude, mais dans ce type de contexte, le fait de manquer même quelques produits ou de détecter des articles qui ne sont pas là peut avoir un impact important sur la gestion des stocks. C'est pourquoi les développeurs examinent la précision, le rappel et l'exactitude ensemble pour s'assurer que le système est à la fois fiable et pratique pour une utilisation dans le monde réel.

Précision, justesse et rappel : principaux points à retenir

La précision, la justesse et le rappel mettent chacun en évidence différents aspects des performances d'un modèle d'apprentissage automatique. Se fier à une seule métrique peut être trompeur.

Les outils et les métriques, tels que la matrice de confusion, les courbes de précision-rappel et le score F1, aident à révéler les compromis et à orienter les décisions concernant l'amélioration du modèle de ML. En choisissant la bonne combinaison de métriques pour une solution d'IA spécifique, vous pouvez vous assurer que les modèles sont précis, fiables et efficaces dans des applications réelles.

Explorez notre communauté en pleine croissance ! Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer vos projets de vision par ordinateur ? Jetez un coup d'œil à nos options de licence. Découvrez l'IA dans l'agriculture et la Vision IA dans la robotique en visitant nos pages de solutions !

Précision vs. justesse vs. rappel dans l'apprentissage automatique

Les métriques d'évaluation des modèles sont importantes dans l'apprentissage automatique.

La matrice de confusion : le fondement des métriques de classification

Éléments de la matrice de confusion

Représentation visuelle et interprétation de la matrice de confusion

Qu'est-ce que la précision dans l'apprentissage automatique ?

Exploration approfondie de la précision : Minimiser les fausses alertes

Qu'est-ce que le rappel (recall) ?

Le compromis : Équilibre entre précision et rappel

L'importance de la courbe de précision-rappel

Présentation du score F1 : une métrique combinée pour l’équilibre

Au-delà de l'exactitude, de la précision et du rappel

Application de la précision, justesse et rappel en vision par ordinateur

Précision, justesse et rappel : principaux points à retenir

En savoir plus dans cette catégorie

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Des bits aux qubits : Comment l'optimisation quantique remodèle l'IA

Construisons ensemble l'avenir
de l'IA !

Précision vs. justesse vs. rappel dans l'apprentissage automatique

Les métriques d'évaluation des modèles sont importantes dans l'apprentissage automatique.

La matrice de confusion : le fondement des métriques de classification

Éléments de la matrice de confusion

Représentation visuelle et interprétation de la matrice de confusion

Qu'est-ce que la précision dans l'apprentissage automatique ?

Exploration approfondie de la précision : Minimiser les fausses alertes

Qu'est-ce que le rappel (recall) ?

Le compromis : Équilibre entre précision et rappel

L'importance de la courbe de précision-rappel

Présentation du score F1 : une métrique combinée pour l’équilibre

Au-delà de l'exactitude, de la précision et du rappel

Application de la précision, justesse et rappel en vision par ordinateur

Précision, justesse et rappel : principaux points à retenir

En savoir plus dans cette catégorie

Qu'est-ce que la correspondance d'images dans l'IA de la vision ? Une introduction rapide

Une introduction au domaine émergent de l'IA neuro-symbolique

Des bits aux qubits : Comment l'optimisation quantique remodèle l'IA

Construisons ensemble l'avenir de l'IA !

Construisons ensemble l'avenir
de l'IA !