Was ist Genauigkeit vs. Präzision vs. Rückruf beim maschinellen Lernen

Maschinelles Lernen (ML) ist ein Zweig der künstlichen Intelligenz (KI), der sich auf die Entwicklung von Systemen konzentriert, die aus Daten lernen. Es spielt eine zentrale Rolle in vielen anderen Bereichen der KI, einschließlich Computer Vision, wo Maschinen Bilder interpretieren, und der Verarbeitung natürlicher Sprache, wo sie menschliche Sprache verstehen und generieren.

Oft verwenden solche KI-Modelle Deep-Learning-Techniken, um Vorhersagen aus Daten zu treffen. Obwohl solche Systeme sehr effektiv sein können, liefern sie nicht immer korrekte Vorhersagen. Einige Ergebnisse können zutreffend sein, während andere das Ziel verfehlen.

Das Wissen, wie diese Fehler auftreten, ist ein wichtiger Bestandteil bei der Bewertung der Leistungsfähigkeit eines Modells. Um die Leistung zu messen, können wir Metriken zur Modellevaluierung verwenden.

Gängige Evaluationsmetriken sind Genauigkeit (allgemeine Korrektheit), Präzision (Zuverlässigkeit positiver Vorhersagen) und Recall (wie gut das Modell tatsächliche Positive identifiziert). Sie mögen zunächst ähnlich erscheinen, aber jede konzentriert sich auf einen anderen Aspekt des Verhaltens eines Modells.

In diesem Artikel werden wir uns jede dieser Metriken zur Bewertung der Leistung von KI-Modellen genauer ansehen. Wir werden auch untersuchen, wie sie zueinander in Beziehung stehen und wie Sie die richtige für Ihren Anwendungsfall auswählen. Los geht's!

Modellbewertungsmetriken sind im Machine Learning von Bedeutung

Ein Machine-Learning-Modell scheint anfangs gut zu funktionieren. Aber ohne die richtigen Bewertungskennzahlen ist es schwierig zu verstehen, wie genau seine Ergebnisse sind. Diese Kennzahlen geben der Modellbewertung eine Struktur und helfen, eine Schlüsselfrage zu beantworten: Sind die Vorhersagen des Modells für eine bestimmte Aufgabe nützlich und zuverlässig?

Metriken wie Genauigkeit, Präzision und Rückruf geben KI-Entwicklern eine klare Möglichkeit, zu messen, wie gut ein Modell funktioniert. Beim Vergleich verschiedener Modelle ermöglichen diese Metriken beispielsweise zu erkennen, welches Modell für eine bestimmte Aufgabe am besten geeignet ist. Sie helfen bei der Bewertung der Leistung und leiten die Wahl des Modells, das am besten zu den Zielen eines KI-Projekts passt.

Abb. 1. Workflow für Modelltraining und -evaluierung (Quelle)

‍

Diese Metriken machen auch Leistungsvergleiche objektiver. Anstatt sich auf Vermutungen oder unvollständige Beobachtungen zu verlassen, bieten sie messbare Einblicke in das Verhalten eines Modells in verschiedenen Situationen. Dadurch heben sie hervor, welche Leistungsaspekte in jedem Kontext am wichtigsten sind.

Beispielsweise hängt die Wahl der Metrik oft von der Anwendung ab. In KI-Gesundheitsanwendungen ist die Trefferquote wichtig, da das Ziel darin besteht, so viele positive Fälle wie möglich zu identifizieren, auch wenn einige negative Fälle fälschlicherweise gekennzeichnet werden. Im Gegensatz dazu kann ein E-Mail-Spamfilter der Präzision Vorrang einräumen, um zu vermeiden, dass legitime E-Mails fälschlicherweise als Spam markiert werden.

Die Konfusionsmatrix: Die Grundlage der Klassifizierungsmetriken

Die Konfusionsmatrix ist eine Zwei-mal-Zwei-Tabelle, die für die Bewertung von KI-Modellen von grundlegender Bedeutung ist. Sie ordnet Vorhersagen in vier Kategorien ein, indem sie die tatsächlichen Ergebnisse mit den vorhergesagten Ergebnissen (den Antworten, die das Modell gibt) vergleicht.

Dieser Vergleich bietet einen detaillierten Überblick über die Leistung des Modells. Er bildet die Grundlage für wichtige Bewertungskennzahlen wie Präzision und Rückruf, die direkt aus den Werten in der Matrix berechnet werden.

Die Zeilen der Tabelle stellen die tatsächlichen Klassen dar, und die Spalten stellen die vorhergesagten Klassen dar. Jede Zelle zeigt die Anzahl der Ergebnisse in dieser Kategorie. Einfach ausgedrückt, sie zeigt, wie viele Vorhersagen korrekt waren und welche Arten von Fehlern das Modell gemacht hat.

Die Konfusionsmatrix ist besonders nützlich, wenn die Daten unausgewogen sind, d. h. einige Kategorien haben viel mehr Beispiele als andere. Sie ist auch hilfreich, wenn verschiedene Arten von Fehlern unterschiedliche Kosten verursachen.

Beispielsweise ist es bei der Betrugserkennung von entscheidender Bedeutung, betrügerische Aktivitäten aufzudecken, aber die falsche Kennzeichnung echter Transaktionen kann ebenfalls Probleme verursachen. Die Matrix macht deutlich, wie oft jede Art von Fehler auftritt.

Elemente der Konfusionsmatrix

Hier ist ein Überblick über die verschiedenen Elemente einer Konfusionsmatrix:

True positive (TP): Wenn das Modell eine positive Instanz korrekt vorhersagt, wird dies als True Positive erfasst. Beispielsweise klassifiziert ein Computer Vision Modell ein Fahrzeug in einem Bild korrekt.
True negative (TN): Ein True Negative tritt auf, wenn das Modell eine negative Instanz korrekt identifiziert. Beispielsweise kennzeichnet ein E-Mail-Klassifikator eine reguläre Nachricht als Nicht-Spam.
Falsch positiv (FP): Das Modell erzeugt ein falsch positives Ergebnis, wenn es fälschlicherweise ein positives Ergebnis für eine Instanz vorhersagt, die tatsächlich negativ ist. Dies wird auch als Fehler erster Art bezeichnet und kann auftreten, wenn ein Betrugserkennungssystem eine gültige Transaktion als betrügerisch kennzeichnet.
Falsches Negativ (FN): Ein falsches Negativ wird verzeichnet, wenn das Modell einen positiven Fall nicht detect und ihn fälschlicherweise als negativ vorhersagt. Dies wird auch als Fehler vom Typ II bezeichnet und kann auftreten, wenn ein Diagnoseinstrument eine Krankheit bei einem tatsächlich kranken Patienten übersieht.

Abb. 2. Die Elemente einer Konfusionsmatrix (Quelle)

‍

Visuelle Darstellung und Interpretation der Konfusionsmatrix

Eine Konfusionsmatrix wird in einem Rasterformat angezeigt. Die vertikale Achse zeigt die tatsächlichen Klassen und die horizontale Achse die vorhergesagten Klassen. Korrekte Vorhersagen erscheinen entlang der Diagonalen und stellen True Positives und True Negatives dar.

Fehler liegen außerhalb der Diagonalen und umfassen falsch Positive und falsch Negative. Diese Struktur erleichtert das Erkennen von Stärken und Schwächen.

Was ist Genauigkeit (Accuracy) im Machine Learning?

Genauigkeit (Accuracy) ist eine der am häufigsten verwendeten Metriken zur Bewertung der Leistung eines Machine-Learning-Modells. Sie misst, wie oft die Vorhersagen über alle Klassen hinweg korrekt sind. Mit anderen Worten, sie beantwortet eine einfache Frage: Wie viele der Vorhersagen des KI-Modells waren richtig?

Die Formel für die Genauigkeit ist die Anzahl der korrekten Vorhersagen (die sowohl True Positives als auch True Negatives umfasst), dividiert durch die Gesamtzahl der Vorhersagen. Die Genauigkeit ist einfach zu berechnen und leicht zu verstehen, was sie zu einem gängigen Ausgangspunkt für die Modellbewertung macht.

Im Allgemeinen ist die Genauigkeit zuverlässig, wenn ausgewogene Datensätze verarbeitet werden. In unausgewogenen Datensätzen, in denen eine Klasse die anderen dominiert, kann die Genauigkeit jedoch oft irreführend sein. Ein Modell, das immer die Mehrheitsklasse vorhersagt, kann trotzdem eine hohe Genauigkeit erreichen, während es andere Minderheitsklassen nicht detect .

In einem Bilddatensatz, der nur wenige Bilder mit Fußgängern enthält, kann ein Modell, das für jedes Bild "kein Fußgänger" vorhersagt, zwar eine hohe Genauigkeit erreichen, aber die tatsächlichen Fußgänger nicht detect .

Das liegt daran, dass die Genauigkeit allein nicht zeigt, welche Arten von Fehlern ein Modell macht oder wie oft sie vorkommen. Deshalb ist es wichtig, auch Metriken wie Präzision und Recall zu betrachten, um vollständig zu verstehen, wie gut ein KI-Modell funktioniert.

Tief eintauchen in die Präzision: Minimierung von Fehlalarmen

Precision ist eine wichtige Evaluationsmetrik, die die Genauigkeit der positiven Vorhersagen eines Modells misst. Sie beantwortet die Frage: Von allen als positiv vorhergesagten Fällen, wie viele waren korrekt?

Die Präzisionsformel ist die Anzahl der True Positives geteilt durch die Summe der True Positives und False Positives. Sie ist besonders wichtig, wenn eine positive Vorhersage kostspielig wäre, wenn sie sich als falsch herausstellt.

Abb. 3. Vergleich von Genauigkeit und Präzision. (Quelle)

‍

Beispielsweise kann ein Modell mit geringer Präzision bei der Betrugserkennung viele gültige Transaktionen als betrügerisch kennzeichnen, was unnötige Probleme für Benutzer und Support-Teams verursacht. Ein Modell mit hoher Präzision reduziert dieses Risiko, indem es sicherstellt, dass gekennzeichnete Transaktionen mit größerer Wahrscheinlichkeit tatsächlich Betrug sind.

Obwohl eine hohe Präzision gut ist, können Modelle, die sich zu sehr darauf konzentrieren, sehr selektiv werden und tatsächliche positive Fälle übersehen. Deshalb wird die Präzisionsmetrik oft zusammen mit dem Recall überprüft, um die Leistung im Gleichgewicht zu halten.

Was ist Recall?

Recall ist eine Kennzahl, mit der gemessen wird, wie gut ein Modell tatsächlich positive Fälle identifiziert. Sie wird auch als Sensitivität oder True-Positive-Rate bezeichnet und beantwortet die Frage: Wie viele von allen tatsächlich positiven Fällen hat das Modell richtig detect ?

Die Formel für den Recall ist die Anzahl der True Positives dividiert durch die Summe aus True Positives und False Negatives. Ein hoher Recall-Wert zeigt, dass das Modell die meisten der tatsächlichen positiven Fälle in den Daten erfasst.

Rückrufe sind in Branchen wie dem Gesundheitswesen von entscheidender Bedeutung, da die detect einer Krankheit die Behandlung verzögern und die Patienten gefährden kann. Selbst wenn einige negative Fälle fälschlicherweise gekennzeichnet werden, bleibt die Identifizierung aller echten Fälle oberste Priorität.

Modelle, die sich nur auf die Trefferquote (Recall) konzentrieren, können jedoch zu viele falsch-positive Ergebnisse liefern, was die Präzision verringert und die Gesamteffizienz des Modells beeinträchtigt. Das Ausbalancieren von Trefferquote und Präzision ist entscheidend für eine zuverlässige KI-Modell-Performance.

Der Balanceakt: Kompromiss zwischen Präzision und Rückruf

Präzision und Trefferrate entwickeln sich oft in entgegengesetzte Richtungen. Wenn sich eine verbessert, kann die andere sinken. Dieser Zielkonflikt ist eine häufige Herausforderung bei Aufgaben des maschinellen Lernens.

Ein Modell mit hoher Präzision sagt etwas nur dann als positiv voraus, wenn es sich sicher ist. Dies reduziert Fehlalarme, kann aber echte Positive übersehen, was die Trefferquote (Recall) senkt. Ein Modell, das versucht, jedes Positiv zu erfassen, erhöht die Trefferquote, riskiert aber mehr Fehlalarme, was die Präzision senkt.

Dieser Kompromiss wird deutlicher, wenn Sie den Entscheidungsschwellenwert des Modells anpassen. Der Schwellenwert ist der Grenzwert, den ein System verwendet, um eine Bewertung oder Wahrscheinlichkeit in eine Aktion oder ein Label umzuwandeln. Das Absenken des Schwellenwerts führt dazu, dass das System häufiger positiv reagiert, was die Trefferquote erhöhen, aber die Präzision verringern kann. Das Anheben des Schwellenwerts hat den gegenteiligen Effekt: Das Modell sagt weniger Positive voraus, die Präzision verbessert sich, aber die Trefferquote sinkt in der Regel.

Nehmen wir an, Sie arbeiten an der Spamerkennung. Das Modell muss das Risiko, Spam in den Posteingang gelangen zu lassen, gegen das Risiko abwägen, echte E-Mails zu blockieren. Ein strenger Filter übersieht möglicherweise immer noch etwas Spam, während ein nachsichtigerer Filter versehentlich legitime Nachrichten blockieren kann. Das richtige Gleichgewicht hängt vom Anwendungsfall und den Kosten für jede Art von Fehler ab.

Die Bedeutung der Precision-Recall-Kurve

Die Precision-Recall-Kurve oder PR-Kurve zeigt, wie sich Präzision und Recall ändern, wenn sich der Entscheidungsschwellenwert des Modells ändert. Jeder Punkt stellt einen anderen Kompromiss zwischen den beiden dar. Die PR-Kurve ist besonders nützlich für unausgewogene Datensätze, bei denen eine Klasse viel seltener vorkommt.

Sie bietet auch aussagekräftigere Einblicke als die Receiver Operating Characteristic (ROC)-Kurve, die ebenfalls zeigt, wie gut ein Modell Positive von Negativen bei verschiedenen Entscheidungsschwellenwerten trennt. Ein Modell mit sowohl hoher Präzision als auch hoher Trefferquote wird eine Precision-Recall-Kurve haben, die sich in der Nähe der oberen rechten Ecke befindet, was im Allgemeinen ideal ist.

Einführung des F1-Scores: Eine kombinierte Metrik für Ausgewogenheit

Der F1-Score liefert einen einzelnen Wert, der das Gleichgewicht zwischen Präzision und Recall erfasst. Der F1-Score wird als das Zweifache des Produkts aus Präzision und Recall, dividiert durch die Summe von Präzision und Recall, berechnet. Er ist nützlich, wenn sowohl falsch-positive als auch falsch-negative Ergebnisse wichtig sind, und er ist hilfreich, wenn mit unausgewogenen Datensätzen gearbeitet wird oder eine ausgewogene Sicht auf die Modellleistung erforderlich ist.

Abb. 4. Berechnung des F1-Scores unter Verwendung von Präzision und Recall (Quelle)

‍

Jenseits von Genauigkeit, Präzision und Treffsicherheit

Während Genauigkeit, Präzision und Rückruf wesentlich sind, bieten andere Metriken zusätzliche Einblicke basierend auf dem Modelltyp und den Datensatzmerkmalen.

Hier sind einige häufig verwendete Metriken, die helfen, verschiedene Aspekte der Leistung zu bewerten:

Spezifität: Sie misst, wie gut das Modell tatsächlich negative Fälle identifiziert. Sie ist nützlich, wenn es wichtig ist, falsch positive Ergebnisse zu vermeiden.
AUC: AUC, oder Area Under the Curve, gibt einen einzelnen Score an, der widerspiegelt, wie gut das Modell zwischen Klassen unterscheiden kann.
Log Loss: Log Loss wird verwendet, um zu messen, wie zuversichtlich ein Modell bei Vorhersagen ist, und bestraft falsche Vorhersagen, die mit hoher Zuversicht getroffen werden, stärker. Hier bezieht sich Zuversicht darauf, wie sicher sich das Modell seiner Vorhersage ist.
Multi-Label-Evaluierung: Bei Multi-Label-Aufgaben werden Metriken über Labels gemittelt, um die Gesamtleistung des Modells widerzuspiegeln.

Anwendung von Genauigkeit, Präzision und Rückruf in der Computer Vision

Nachdem wir nun ein klareres Verständnis von Genauigkeit, Präzision und Rückruf haben, wollen wir uns ansehen, wie diese Metriken in der Computer Vision angewendet werden.

Computer-Vision-Modelle wie Ultralytics YOLO11 unterstützen Aufgaben wie die Objekterkennung, bei der das Modell feststellt, welche Objekte in einem Bild vorhanden sind, und sie mithilfe von Begrenzungsrahmen lokalisiert. Jede Vorhersage umfasst sowohl die Objektbezeichnung als auch die Position des Objekts, was die Bewertung komplexer macht als die einfache Überprüfung, ob eine Bezeichnung korrekt ist.

Abb. 5. Ein Beispiel für die Verwendung von Ultralytics YOLO11 zur Objekterkennung.(Quelle)

‍

Nehmen wir eine Einzelhandelsanwendung, bei der Kameras zur automatischen track von Produkten in Regalen eingesetzt werden. Ein Objekterkennungsmodell könnte Artikel wie Müslischachteln, Limonadendosen oder Wasserflaschen identifizieren und ihre Positionen markieren.

In diesem Fall gibt die Genauigkeit an, wie viele der erkannten Objekte tatsächlich korrekt sind. Eine hohe Genauigkeit bedeutet, dass das System falsch-positive Ergebnisse vermeidet, z. B. wenn ein Schatten oder ein Hintergrundobjekt als Produkt erkannt wird. Die Rückrufquote gibt an, wie viele der echten Produkte im Regal das Modell detect konnte. Eine hohe Trefferquote bedeutet, dass weniger Artikel übersehen werden, was für genaue Bestandszählungen entscheidend ist.

Die Genauigkeit kann zwar immer noch ein allgemeines Maß für die Korrektheit liefern, aber in dieser Art von Umgebung kann das Fehlen auch nur weniger Produkte oder das Erkennen von Artikeln, die nicht vorhanden sind, große Auswirkungen auf das Bestandsmanagement haben. Aus diesem Grund betrachten Entwickler Präzision, Treffsicherheit und Genauigkeit zusammen, um sicherzustellen, dass das System sowohl zuverlässig als auch praxistauglich ist.

Genauigkeit, Präzision und Trefferrate: Wichtige Erkenntnisse

Genauigkeit, Präzision und Trefferrate beleuchten jeweils unterschiedliche Aspekte der Leistung eines Machine-Learning-Modells. Sich nur auf eine Metrik zu verlassen, kann irreführend sein.

Tools und Metriken wie die Confusion Matrix, Precision-Recall-Kurven und der F1-Score helfen, Trade-offs aufzudecken und Entscheidungen zur Verbesserung des ML-Modells zu treffen. Durch die Wahl der richtigen Kombination von Metriken für eine bestimmte KI-Lösung können Sie sicherstellen, dass Modelle in realen Anwendungen präzise, zuverlässig und effektiv sind.

Entdecken Sie unsere wachsende Community! Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, mit Ihren Computer-Vision-Projekten zu beginnen? Werfen Sie einen Blick auf unsere Lizenzoptionen. Entdecken Sie KI in der Landwirtschaft und Vision AI in der Robotik, indem Sie unsere Lösungsseiten besuchen!

Genauigkeit vs. Präzision vs. Treffsicherheit im maschinellen Lernen

Modellbewertungsmetriken sind im Machine Learning von Bedeutung

Die Konfusionsmatrix: Die Grundlage der Klassifizierungsmetriken

Elemente der Konfusionsmatrix

Visuelle Darstellung und Interpretation der Konfusionsmatrix

Was ist Genauigkeit (Accuracy) im Machine Learning?

Tief eintauchen in die Präzision: Minimierung von Fehlalarmen

Was ist Recall?

Der Balanceakt: Kompromiss zwischen Präzision und Rückruf

Die Bedeutung der Precision-Recall-Kurve

Einführung des F1-Scores: Eine kombinierte Metrik für Ausgewogenheit

Jenseits von Genauigkeit, Präzision und Treffsicherheit

Anwendung von Genauigkeit, Präzision und Rückruf in der Computer Vision

Genauigkeit, Präzision und Trefferrate: Wichtige Erkenntnisse

Mehr in dieser Kategorie lesen

Was bedeutet Bildabgleich bei Vision AI? Eine kurze Einführung

Eine Einführung in das aufstrebende Gebiet der neurosymbolischen KI

Von Bits zu Qubits: Wie die Quantenoptimierung die KI umgestaltet

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Genauigkeit vs. Präzision vs. Treffsicherheit im maschinellen Lernen

Modellbewertungsmetriken sind im Machine Learning von Bedeutung

Die Konfusionsmatrix: Die Grundlage der Klassifizierungsmetriken

Elemente der Konfusionsmatrix

Visuelle Darstellung und Interpretation der Konfusionsmatrix

Was ist Genauigkeit (Accuracy) im Machine Learning?

Tief eintauchen in die Präzision: Minimierung von Fehlalarmen

Was ist Recall?

Der Balanceakt: Kompromiss zwischen Präzision und Rückruf

Die Bedeutung der Precision-Recall-Kurve

Einführung des F1-Scores: Eine kombinierte Metrik für Ausgewogenheit

Jenseits von Genauigkeit, Präzision und Treffsicherheit

Anwendung von Genauigkeit, Präzision und Rückruf in der Computer Vision

Genauigkeit, Präzision und Trefferrate: Wichtige Erkenntnisse

Mehr in dieser Kategorie lesen

Was bedeutet Bildabgleich bei Vision AI? Eine kurze Einführung

Eine Einführung in das aufstrebende Gebiet der neurosymbolischen KI

Von Bits zu Qubits: Wie die Quantenoptimierung die KI umgestaltet

Lasst uns gemeinsam die Zukunft der KI gestalten!

Lasst uns gemeinsam die Zukunft
der KI gestalten!