Glossar

F1-Punktzahl

Entdecken Sie die Bedeutung des F1-Scores beim maschinellen Lernen! Erfahren Sie, wie er Präzision und Recall für eine optimale Modellbewertung ausgleicht.

Der F1-Score ist eine beim maschinellen Lernen weit verbreitete Metrik zur Bewertung der Leistung eines Klassifizierungsmodells. Er kombiniert auf geschickte Weise zwei andere wichtige Metriken - Präzision und Recall - zu einemeinzigen Wert. Als harmonischer Mittelwert von Precision und Recall bietet der F1-Score ein ausgewogeneres Maß für die Leistung eines Modells, insbesondere bei unausgewogenen Datensätzen, bei denen eine Klasse viel häufiger vorkommt als die andere. In solchen Szenarien kann ein hoher Genauigkeitswert irreführend sein, aber der F1-Score vermittelt einen besseren Eindruck von der Effektivität des Modells bei der korrekten Identifizierung der Minderheitenklasse.

Um den F1-Score vollständig zu verstehen, ist es wichtig, seine Komponenten zu kennen. Präzision beantwortet die Frage: "Wie viele der positiven Vorhersagen des Modells waren tatsächlich richtig?" Der Rückruf hingegen beantwortet die Frage: "Wie viele der tatsächlich positiven Vorhersagen hat das Modell richtig erkannt?" Der F1-Score harmonisiert diese beiden Metriken und bestraft Modelle, die bei einer Metrik auf Kosten der anderen hervorragend abschneiden. Ein F1-Score erreicht seinen besten Wert bei 1 (perfekte Präzision und Wiedererkennung) und seinen schlechtesten bei 0. Dieses Gleichgewicht ist in vielen realen Anwendungen entscheidend, wo sowohl falsch positive als auch falsch negative Ergebnisse erhebliche Kosten verursachen. Die Verfolgung dieser Metrik während des Modelltrainings ist eine Standardpraxis in MLOps.

F1-Score in Aktion: Beispiele aus der Praxis

Der F1-Score ist in verschiedenen Anwendungen der Künstlichen Intelligenz (KI) von entscheidender Bedeutung, da die Folgen einer Fehlklassifizierung schwerwiegend sind:

Medizinische Bildanalyse zur Erkennung von Krankheiten: Betrachten wir ein KI-Modell, das mit Hilfe von Computer Vision (CV) krebsartige Tumore auf Scans erkennen soll.
- Ein falsch negativer Befund (niedriger Recall) bedeutet, dass der Krebs nicht erkannt wird, wenn er vorhanden ist, was schwerwiegende Folgen für den Patienten haben kann.
- Ein falsch positiver Befund (geringe Präzision) bedeutet, dass Krebs diagnostiziert wird, obwohl er gar nicht vorhanden ist, was zu unnötigem Stress, Kosten und weiteren invasiven Tests führt.
- Der F1-Score hilft bei der Bewertung von Modellen, wie sie in KI-Gesundheitslösungen verwendet werden, indem er ein Gleichgewicht zwischen dem Erkennen tatsächlicher Fälle (Recall) und dem Vermeiden von Fehldiagnosen (Precision) gewährleistet. Für das Training solcher Modelle können Datensätze wie der Datensatz zur Erkennung von Hirntumoren verwendet werden.
Spam-E-Mail-Filterung: E-Mail-Dienste verwenden Klassifizierungsmodelle, um Spam zu erkennen.
- Eine hohe Auffindbarkeit ist erforderlich, um so viel Spam wie möglich zu erkennen. Fehlender Spam (ein falsches Negativ) ärgert die Nutzer.
- Eine hohe Präzision ist entscheidend, um zu vermeiden, dass legitime E-Mails ("Schinken") als Spam markiert werden (ein falsches Positiv). Die falsche Klassifizierung einer wichtigen E-Mail kann sehr problematisch sein.
- Der F1-Score ist ein geeignetes Maß für die Bewertung der Gesamteffektivität des Spam-Filters, wobei die Notwendigkeit, Junk-Mails herauszufiltern, ohne wichtige Nachrichten zu verlieren, berücksichtigt wird. Dabei werden häufig Techniken der natürlichen Sprachverarbeitung (NLP) eingesetzt.

Wie sich der F1-Score von anderen Metriken unterscheidet

Das Verständnis des Unterschieds zwischen dem F1-Score und anderen Evaluationsmetriken ist der Schlüssel zur Auswahl der richtigen Metrik für Ihr Projekt.

F1-Score vs. Genauigkeit: Die Genauigkeit ist das Verhältnis zwischen den richtigen Vorhersagen und der Gesamtzahl der Vorhersagen. Sie ist zwar einfach zu verstehen, schneidet aber bei unausgewogenen Klassifizierungsproblemen schlecht ab. Der F1-Score wird in diesen Fällen oft bevorzugt, da er sich auf die Leistung der positiven Klassen konzentriert.
F1-Score vs. Präzision und Recall: Der F1-Score kombiniert Präzision und Recall in einer Metrik. Je nach dem Ziel der Anwendung kann es jedoch sinnvoll sein, eine der beiden Kennzahlen zu optimieren. Bei Sicherheitskontrollen auf Flughäfen ist beispielsweise die Maximierung des Recall (Auffinden aller potenziellen Bedrohungen) wichtiger als die Präzision. Das Verständnis dieses Kompromisses zwischen Präzision und Recall ist von grundlegender Bedeutung.
F1-Score vs. mittlere durchschnittliche Präzision (mAP): Während der F1-Score die Klassifizierungsleistung bei einer bestimmten Konfidenzschwelle bewertet, ist mAP die Standardmetrik für Objekterkennungsaufgaben. Der mAP-Score fasst die Precision-Recall-Kurve über verschiedene Schwellenwerte zusammen und liefert eine umfassendere Bewertung der Fähigkeit eines Modells, Objekte zu lokalisieren und zu klassifizieren. Plattformen wie Ultralytics HUB helfen bei der Verfolgung dieser Metriken während der Modellentwicklung.
F1-Score vs. AUC (Area Under the Curve): Die AUC wird anhand der Receiver Operating Characteristic (ROC)-Kurve berechnet und stellt die Fähigkeit eines Modells dar, zwischen Klassen über alle möglichen Schwellenwerte hinweg zu unterscheiden. Der F1-Score hingegen wird für einen einzigen, spezifischen Schwellenwert berechnet.

Während mAP die primäre Metrik für Objekterkennungsmodelle wie Ultralytics YOLO11 ist, ist der F1-Score entscheidend für die Bildklassifizierungsaufgaben, die diese Modelle ebenfalls durchführen können. Ein solides Verständnis des F1-Scores ist für jeden Entwickler, der an Klassifizierungsproblemen im Deep Learning arbeitet, unerlässlich. Sie können die Leistungen verschiedener YOLO-Modelle vergleichen, die oft mit Datensätzen wie COCO verglichen werden.

F1-Punktzahl

Trainieren Sie Ultralytics YOLO-Modelle zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

F1-Score in Aktion: Beispiele aus der Praxis

Wie sich der F1-Score von anderen Metriken unterscheidet

Lesen Sie mehr in dieser Kategorie

Ultralytics' wichtigste Highlights der YOLO Vision 2025!

Analyse von Tierspuren im Schnee mit Hilfe von Computer Vision

Lernen Sie Ultralytics YOLO26 kennen: Ein besseres, schnelleres und kleineres YOLO-Modell

Werden Sie Mitglied der Ultralytics-Gemeinschaft