Entdecken Sie die Bedeutung des F1-Scores im maschinellen Lernen! Erfahren Sie, wie er Präzision und Recall für eine optimale Modellbewertung ausgleicht.
Der F1-Score ist eine wichtige Leistungskennzahl beim maschinellem Lernen (ML), die zur Bewertung der Genauigkeit von Klassifikationsmodellen. Im Gegensatz zur einfachen Genauigkeit, die den Prozentsatz der richtigen Vorhersagen berechnet, kombiniert der F1-Score zwei weitere wichtige Metriken - Präzision und Recall - zu einemeinzigen Wert. Er ist definiert als das harmonische Mittelwert von Precision und Recall. Dies macht den F1-Score besonders nützlich für die Bewertung von Modellen, die auf unausgewogenen Datensätzen trainiert wurden, bei denen die Anzahl der Stichproben in einer Klasse deutlich höher ist als in den anderen. In solchen Fällen kann ein Modell eine hohe Genauigkeit erreichen, indem es einfach die Mehrheitsklasse vorhersagt, während es die Minderheitsklasse, die oft von größerem Interesse ist, nicht erkennt. größerem Interesse ist.
Um den F1-Score zu verstehen, ist es notwendig, das Spannungsverhältnis zwischen seinen Komponenten zu begreifen. Die Präzision misst die Qualität der positiven Vorhersagen (Minimierung von Falsch-Positiven), während der Recall die Anzahl der echten Positiven (Minimierung falsch negativer Ergebnisse). Häufig führt die Erhöhung einer dieser Kennzahlen zu einer Verringerung der anderen, ein Phänomen, das als Präzision-Rückruf-Abwägung. Der F1-Score bietet eine ausgewogene Sichtweise, indem er Extremwerte bestraft. Er erreicht seinen besten Wert bei 1 (perfekte Präzision und Recall) und den schlechtesten bei 0. Dieses Gleichgewicht ist für die Entwicklung robuster prädiktiver Modellierungssysteme, bei denen sowohl verpasste Entdeckungen und Fehlalarme erhebliche Kosten verursachen.
Der F1-Score ist unverzichtbar in Szenarien, in denen die Fehlerkosten hoch sind oder die Datenverteilung schief ist.
Bei Computer-Vision-Aufgaben (CV) wie der Objekterkennung, hilft der F1-Score zu bestimmen, wie gut ein Modell Grenzen definiert und Objekte bei bestimmten Vertrauensschwellen klassifiziert. Beim Training von Modellen wie Ultralytics YOLO11berechnet der Validierungsprozess die Präzision, Recall und F1-Scores, um die Ingenieure bei der Auswahl der besten Modellgewichte zu unterstützen.
Der folgende Python veranschaulicht, wie man ein vortrainiertes YOLO11 validiert und auf Leistungsdaten zugreift.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run validation on a dataset like COCO8
# The .val() method computes metrics including Precision, Recall, and mAP
metrics = model.val(data="coco8.yaml")
# Print the mean results
# While F1 is computed internally for curves, mAP is the primary summary metric
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")
print(f"Precision: {metrics.box.mp}")
print(f"Recall: {metrics.box.mr}")
Die Auswahl der richtigen Metrik hängt von den spezifischen Zielen des KI-Projekts ab.
Die Verbesserung des F1-Scores erfordert häufig iterative Verbesserungen des Modells und der Daten.