Glossar

F1-Punktzahl

Entdecken Sie die Bedeutung des F1-Scores beim maschinellen Lernen! Erfahren Sie, wie er Präzision und Recall für eine optimale Modellbewertung ausgleicht.

Der F1-Score ist eine weit verbreitete Metrik im maschinellen Lernen (ML) und im Information Retrieval, um die Leistung von binären Klassifizierungsmodellen zu bewerten. Er liefert eine einzige Punktzahl, die zwei andere wichtige Metriken ausgleicht: Präzision und Wiedererkennung. Diese Ausgewogenheit macht den F1-Score besonders wertvoll in Situationen, in denen die Verteilung der Klassen ungleichmäßig ist (unausgewogene Datensätze) oder wenn sowohl falsch-positive als auch falsch-negative Ergebnisse erhebliche Kosten verursachen. Der F1-Score wird als harmonischer Mittelwert von Precision und Recall berechnet und liegt damit im Bereich zwischen 0 und 1, wobei 1 für perfekte Precision und Recall steht.

Verstehen von Precision und Recall

Um den F1-Score zu verstehen, ist es wichtig, seine Bestandteile zu kennen:

  • Genauigkeit: Misst die Genauigkeit der positiven Vorhersagen. Sie beantwortet die Frage: "Wie viele der Instanzen, die das Modell als positiv vorhergesagt hat, waren tatsächlich positiv?" Eine hohe Präzision bedeutet, dass das Modell nur wenige falsch-positive Fehler macht.
  • Rückruf (Sensitivität): Misst die Fähigkeit des Modells, alle tatsächlich positiven Instanzen zu identifizieren. Sie beantwortet die Frage: "Wie viele der tatsächlich positiven Instanzen hat das Modell korrekt identifiziert?" Eine hohe Rückrufquote bedeutet, dass das Modell nur wenige falsch negative Fehler macht.

Der F1-Score kombiniert diese beiden Werte, indem er ihren harmonischen Mittelwert berechnet. Im Gegensatz zu einem einfachen Durchschnitt werden beim harmonischen Mittelwert Extremwerte stärker bestraft, d. h. ein Modell muss sowohl bei der Präzision als auch bei der Wiederauffindbarkeit einigermaßen gut abschneiden, um einen hohen F1-Score zu erzielen.

Warum den F1-Score verwenden?

Die Genauigkeit (der Anteil der korrekten Vorhersagen insgesamt) ist zwar eine gängige Kennzahl, kann aber irreführend sein, insbesondere bei unausgewogenen Datensätzen. Wenn z. B. nur 1 % der Datenpunkte zur positiven Klasse gehören, erreicht ein Modell, das alles als negativ vorhersagt, eine Genauigkeit von 99 %, versagt aber völlig bei der Identifizierung der positiven Klasse.

Der F1-Score befasst sich mit diesem Problem, indem er sich auf die positive Klassenleistung durch Präzision und Recall konzentriert. Er wird bevorzugt, wenn:

  1. Das Ungleichgewicht zwischen den Klassen ist vorhanden: Sie liefert eine bessere Bewertung als die Genauigkeit, wenn eine Klasse die andere bei weitem übertrifft.
  2. Sowohl Falsch-Positive als auch Falsch-Negative spielen eine Rolle: Szenarien, in denen die Minimierung beider Fehlertypen von entscheidender Bedeutung ist, profitieren von der Abwägung durch den F1-Score. Die Entscheidung zwischen der Optimierung für Präzision oder Recall beinhaltet oft einen Kompromiss; der F1-Score hilft dabei, ein Modell zu finden, das diesen Kompromiss zwischen Präzision und Recall ausgleicht.

F1-Score in Aktion: Beispiele aus der Praxis

Der F1-Score ist in verschiedenen Anwendungen der Künstlichen Intelligenz (KI ) von entscheidender Bedeutung:

  1. Medizinische Bildanalyse zur Erkennung von Krankheiten: Betrachten wir ein KI-Modell, das mit Hilfe von Computer Vision (CV) krebsartige Tumore auf Scans erkennen soll.

    • Ein falsch negativer Befund (niedriger Recall) bedeutet, dass der Krebs nicht erkannt wird, wenn er vorhanden ist, was schwerwiegende Folgen für den Patienten haben kann.
    • Ein falsch positiver Befund (geringe Präzision) bedeutet, dass Krebs diagnostiziert wird, obwohl er gar nicht vorhanden ist, was zu unnötigem Stress, Kosten und weiteren invasiven Tests führt.
    • Der F1-Score hilft bei der Bewertung von Modellen, wie sie in KI-Gesundheitslösungen verwendet werden, indem er ein Gleichgewicht zwischen dem Erkennen tatsächlicher Fälle (Recall) und dem Vermeiden von Fehldiagnosen (Precision) gewährleistet. Für das Training solcher Modelle können Datensätze wie der Datensatz zur Erkennung von Hirntumoren verwendet werden.
  2. Spam-E-Mail-Filterung: E-Mail-Dienste verwenden Klassifizierungsmodelle, um Spam zu erkennen.

    • Eine hohe Auffindbarkeit ist notwendig, um so viel Spam wie möglich zu erkennen. Fehlender Spam (falsch negativ) verärgert die Nutzer.
    • Eine hohe Präzision ist entscheidend, um zu vermeiden, dass legitime E-Mails ("Schinken") als Spam markiert werden (falsch positiv). Die falsche Klassifizierung einer wichtigen E-Mail kann sehr problematisch sein.
    • Der F1-Score ist ein geeignetes Maß für die Bewertung der Gesamteffektivität des Spam-Filters, wobei die Notwendigkeit, Junk-Mails herauszufiltern, ohne wichtige Nachrichten zu verlieren, berücksichtigt wird. Dazu werden Techniken der natürlichen Sprachverarbeitung (NLP) eingesetzt.

F1-Score im Vergleich zu verwandten Metriken

Es ist wichtig, den F1-Score von anderen Bewertungsmaßstäben zu unterscheiden:

  • Korrektheit: Misst die allgemeine Korrektheit, kann aber bei unausgewogenen Klassen unzuverlässig sein.
  • Präzision und Rückruf: F1-Score kombiniert diese. Verwenden Sie die Präzision, wenn die Minimierung von Falsch-Positiven entscheidend ist; verwenden Sie die Rückrufquote, wenn die Minimierung von Falsch-Negativen von größter Bedeutung ist.
  • Mittlere durchschnittliche Präzision (mAP): Eine primäre Metrik für Objekterkennungsaufgaben, wie sie von den YOLO-Modellen von Ultralytics durchgeführt werden. mAP ist eine Durchschnittspräzision über verschiedene Recall-Werte und oft über mehrere Objektklassen und Intersection over Union (IoU)-Schwellenwerte. Obwohl mAP mit Präzision und Rückruf verwandt ist, bewertet es speziell die Objekterkennungsleistung und berücksichtigt dabei sowohl Klassifizierung als auch Lokalisierung. Weitere Einzelheiten zu den YOLO-Leistungsmetriken finden Sie hier. Siehe Modellvergleiche wie YOLO11 vs. YOLOv8, die oft auf mAP basieren.
  • Schnittmenge über Vereinigung (IoU): Misst die Überlappung zwischen einer vorhergesagten Bounding Box und der Ground Truth Bounding Box bei der Objekterkennung. Sie bewertet die Lokalisierungsqualität und nicht die Klassifizierungsleistung wie der F1-Score.
  • Konfusionsmatrix: Eine Tabelle, die die Klassifizierungsleistung zusammenfasst und wahre Positive, wahre Negative, falsche Positive und falsche Negative anzeigt, aus der Präzision, Wiedererkennung, Genauigkeit und F1-Score abgeleitet werden.

F1-Score im Ultralytics Ecosystem

Innerhalb des Ultralytics-Ökosystems ist mAP zwar der Standard für die Bewertung von Objekterkennungsmodellen wie YOLO11, aber der F1-Score kann auch relevant sein, wenn es darum geht, die Fähigkeiten der Klassifizierungsaufgabe zu bewerten oder die Leistung bei einer bestimmten Klasse innerhalb eines Erkennungs- oder Segmentierungsproblems zu beurteilen, insbesondere wenn ein Klassenungleichgewicht ein Problem darstellt. Tools wie Ultralytics HUB erleichtern das Training benutzerdefinierter Modelle und die Verfolgung verschiedener Leistungskennzahlen während der Modellbewertung. Das Verständnis von Metriken wie dem F1-Score hilft bei der Feinabstimmung von Modellen für spezifische Anforderungen mit Hilfe von Techniken wie Hyperparameter-Tuning. Frameworks wie PyTorch und Bibliotheken wie Scikit-learn bieten Implementierungen für die Berechnung des F1-Scores.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert