Découvrez l'importance de la précision dans l'apprentissage automatique, son calcul, ses limites avec les ensembles de données déséquilibrés et les moyens d'améliorer les performances du modèle.
La précision est l'une des mesures les plus fondamentales pour évaluer les performances d'un modèle de classification. Elle représente la proportion de prédictions correctes faites par le système par rapport au nombre total de prédictions traitées. représente la proportion de prédictions correctes faites par le système sur le nombre total de prédictions traitées. Dans le contexte plus large de l'apprentissage l'apprentissage automatique (ML), la précision est souvent le premier chiffre que les développeurs examinent pour déterminer si un modèle apprend efficacement ou s'il se contente de deviner. Bien qu'elle fournisse un instantané rapide de l'efficacité, elle est fréquemment utilisée avec d'autres d'évaluation pour assurer une compréhension d'évaluation pour garantir une compréhension complète du comportement du modèle, en particulier lorsqu'il s'agit de faire la distinction entre des classes dans des ensembles de données complexes.
Le calcul de la précision est simple, ce qui le rend très accessible aux parties prenantes, qu'il s'agisse de scientifiques des données ou de dirigeants d'entreprise. des scientifiques des données aux dirigeants d'entreprise. Elle est définie mathématiquement comme le nombre de vrais positifs et de vrais négatifs divisé par le nombre total de cas. Pour les tâches d'apprentissage tâches d'apprentissage supervisé, cette métrique indique la fréquence à laquelle l'algorithme s'aligne sur la vérité de base fournie dans les données d'apprentissage. données d'apprentissage. Cependant, une grande précision n'implique pas toujours un modèle parfait ; sa fiabilité dépend fortement de la distribution des données d'apprentissage. implique pas toujours un modèle parfait ; sa fiabilité dépend fortement de la distribution des données sous-jacentes.
La précision joue un rôle essentiel dans divers secteurs où la prise de décision automatisée aide les experts humains.
Lors de l'élaboration de modèles à l'aide de l'outil ultralytics l'évaluation de la précision fait partie intégrante du processus de validation.
workflow de validation. L'exemple suivant montre comment charger un
YOLO11 modèle de classification et le valider pour récupérer des
des mesures de précision.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Validate the model on the MNIST160 dataset
# The function returns a metrics object containing top1 and top5 accuracy
metrics = model.val(data="mnist160")
# Display the Top-1 accuracy (percentage of times the top prediction was correct)
print(f"Top-1 Accuracy: {metrics.top1:.2f}")
Bien qu'intuitive, la précision peut être trompeuse lorsqu'il s'agit d'un ensemble de données déséquilibré. données déséquilibrées. Ce phénomène est connu sous le nom de paradoxe de la précision. Par exemple, dans un scénario de détection de la fraude où seulement 1 % des transactions sont frauduleuses, un modèle qui prédit simplement "légitime" pour chaque transaction atteindra une précision de 99 %. 99 % de précision. Cependant, il échouerait complètement dans sa tâche principale de détection de la fraude. Dans ce cas, le modèle présente une grande précision mais un pouvoir prédictif nul pour la classe minoritaire.
Pour y remédier, les praticiens utilisent l'augmentation des données pour équilibrer les classes ou différentes mesures permettant de disséquer les types d'erreurs commises.
Pour bien comprendre les performances d'un modèle, il faut distinguer la précision des termes connexes :
L'amélioration de la précision implique un processus itératif d'expérimentation. Les développeurs utilisent souvent d 'hyperparamètres pour ajuster les taux d'apprentissage d'apprentissage et la taille des lots pour obtenir une convergence optimale. En outre, l'utilisation d'architectures avancées telles que Transformers ou les dernières itérations de Ultralytics YOLO peuvent apporter des gains significatifs. Enfin, le fait de s'assurer que l'ensemble de données d'entraînement est propre et diversifié grâce à l'apprentissage actif permet au modèle de mieux se généraliser. l 'apprentissage actif aide le modèle à mieux se généraliser à des données réelles inédites.