Score F1
Découvrez l'importance du score F1 dans l'apprentissage automatique ! Découvrez comment il équilibre la précision et le rappel pour une évaluation optimale du modèle.
Le score F1 est une mesure de performance critique dans l'apprentissage
l 'apprentissage machine (ML) utilisé pour évaluer la
l'exactitude des modèles de classification. Contrairement à la précision simple, qui calcule le pourcentage de prédictions correctes, le score F1 combine deux autres mesures essentielles : la précision et la qualité.
F1-Score combine deux autres mesures essentielles - la précision et le rappel - en une seule valeur.
Rappel - enune seule valeur. Il est défini comme la
moyenne harmonique de la précision et du rappel. C'est ce qui rend le
F1-Score particulièrement utile pour évaluer les modèles formés sur des ensembles de données déséquilibrés, où le nombre d'échantillons est supérieur à la moyenne.
sur des ensembles de données déséquilibrés, où le nombre d'échantillons d'une classe est nettement supérieur à celui des autres. Dans ce cas, un modèle peut atteindre une
un modèle peut atteindre une grande précision simplement en prédisant la classe majoritaire, tout en ne parvenant pas à identifier la classe minoritaire qui présente souvent un plus grand intérêt.
souvent d'un plus grand intérêt.
L'équilibre entre précision et rappel
Pour comprendre le score F1, il est nécessaire de saisir la tension entre ses composantes. La précision mesure la qualité
la qualité des prédictions positives (minimisation des faux positifs), tandis que le rappel mesure la quantité de vrais positifs
identifiés (minimiser les faux négatifs). Souvent, l'augmentation de l'une de ces mesures entraîne une diminution de l'autre.
phénomène connu sous le nom de
phénomène connu sous le nom de compromis précision-rappel. Le score F1 offre une vision équilibrée en pénalisant les valeurs extrêmes. Il atteint sa meilleure valeur à 1 (précision et rappel
Cet équilibre est essentiel pour développer des systèmes de modélisation prédictive robustes, où les échecs et les échecs peuvent être évités.
systèmes de modélisation prédictive robustes où les
détections manquées et les fausses alarmes entraînent des coûts importants.
Applications concrètes
Le score F1 est indispensable dans les scénarios où le coût de l'erreur est élevé ou la distribution des données est asymétrique.
-
Analyse d'images médicales: Dans le domaine de la santé, le diagnostic d'affections telles que les tumeurs nécessite une sensibilité élevée. Un faux négatif (absence de tumeur) est
dangereux, tandis qu'un faux positif (identifier un tissu sain comme une tumeur) provoque un stress inutile. Les solutions
utilisant l'IA dans le domaine de la santé s'appuient sur le
F1-Score pour s'assurer que le modèle maintient un équilibre sûr, en détectant autant de cas réels que possible sans submerger les médecins de fausses alertes.
médecins par de fausses alertes.
-
Détection d'anomalies dans la finance:
Les institutions financières utilisent l'IA pour detect transactions frauduleuses. Étant donné que la fraude réelle est rare par rapport aux
légitimes, un modèle pourrait prétendre à une précision de 99,9 % en qualifiant simplement toutes les transactions de légitimes. Cependant, cela ne servirait à rien pour détecter les fraudes.
Cependant, cela ne servirait à rien pour attraper la fraude. En optimisant le score F1,
l'IA en finance
peuvent signaler efficacement les activités suspectes tout en minimisant les perturbations causées par le blocage des cartes valides.
Score F1 dans Ultralytics YOLO11
Pour les tâches de vision par ordinateur (VA) telles que
détection d'objets, le score F1 permet de déterminer la
un modèle définit les limites et classifie les objets à des seuils de confiance spécifiques. Lors de l'entraînement de modèles tels que
Ultralytics YOLO11le processus de validation calcule
la précision, le rappel et les scores F1 pour aider les ingénieurs à sélectionner les meilleurs poids de modèle.
Le code Python suivant montre comment valider un modèle YOLO11 pré-entraîné et accéder aux mesures de performance.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run validation on a dataset like COCO8
# The .val() method computes metrics including Precision, Recall, and mAP
metrics = model.val(data="coco8.yaml")
# Print the mean results
# While F1 is computed internally for curves, mAP is the primary summary metric
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")
print(f"Precision: {metrics.box.mp}")
print(f"Recall: {metrics.box.mr}")
Distinguer le score F1 des mesures apparentées
Le choix de la bonne mesure dépend des objectifs spécifiques du projet d'IA.
-
Précision: Elle mesure l'exactitude globale des prédictions. Elle est utilisée de manière optimale lorsque la répartition des classes est à peu près égale.
En revanche, le score F1 est la mesure préférée en cas de répartition inégale des classes.
-
Précision moyennemAP: Alors que le score F1 est souvent calculé à un seuil de confiance spécifique, la mAP évalue la précision moyenne.
seuil de confiance spécifique, la mAP évalue la précision moyenne entre différents niveaux de rappel.
La mAP est la norme pour comparer les modèles de détection d'objets, alors que F1 est utile pour optimiser un point de fonctionnement spécifique.
est utile pour optimiser un point de fonctionnement spécifique.
-
Surface sous la courbe (SSC): L'aire sous la courbe (AUC) représente l'aire sous la courbe ROC (Receiver Operating Characteristic).
courbe ROC (Receiver Operating Characteristic). La SSC mesure la capacité d'un classificateur à faire la distinction entre les classes pour tous les seuils, tandis que le score F1
se concentre spécifiquement sur la performance de la classe positive à un seul seuil.
Amélioration du score F1 du modèle
L'amélioration du score F1 passe souvent par des améliorations itératives du modèle et des données.
-
Optimisation des hyperparamètres: L'ajustement de paramètres tels que le taux d'apprentissage,
la taille du lot ou les fonctions de perte peut aider le modèle à
modèle à converger vers une solution qui équilibre plus efficacement la précision et le rappel.
-
Augmentation des données: Des techniques telles que le retournement, la mise à l'échelle ou l'ajout de bruit aux données d'apprentissage permettent d'exposer le modèle à des situations plus variées.
d'entraînement exposent le modèle à des exemples plus
exemples plus variés, améliorant ainsi sa capacité à généraliser et à identifier correctement les cas positifs difficiles.
-
Apprentissage par transfert: Le fait de commencer par un modèle pré-entraîné sur un ensemble de données large et diversifié permet au réseau de tirer parti des extracteurs de caractéristiques appris, ce qui permet souvent d'obtenir des scores F1 plus élevés sur des tâches spécialisées avec des données limitées.
d'extracteurs de caractéristiques appris, ce qui permet souvent d'obtenir des scores F1 plus élevés sur des tâches spécialisées avec des données limitées.