Genauigkeit vs. Präzision vs. Rückruf beim maschinellen Lernen

Abirami Vina

6 Minuten lesen

August 20, 2025

Erfahren Sie mehr über Accuracy, Precision und Recall beim maschinellen Lernen. Lernen Sie die Konfusionsmatrix und den F1-Score kennen und erfahren Sie, wie Sie diese wichtigen Evaluierungsmetriken verwenden können.

Maschinelles Lernen (ML) ist ein Teilgebiet der künstlichen Intelligenz (KI), das sich mit der Entwicklung von Systemen befasst, die aus Daten lernen. Es spielt eine zentrale Rolle in vielen anderen Bereichen der KI, darunter Computer Vision, wo Maschinen Bilder interpretieren, und Natural Language Processing, wo sie menschliche Sprache verstehen und erzeugen.

Häufig verwenden solche KI-Modelle Deep-Learning-Techniken, um Vorhersagen aus Daten zu treffen. Auch wenn solche Systeme sehr effektiv sein können, treffen sie nicht immer die richtigen Vorhersagen. Einige Ergebnisse können genau sein, während andere das Ziel verfehlen. 

Um die Leistung eines Modells zu bewerten, ist es wichtig zu wissen, wie diese Fehler entstehen. Um die Leistung zu messen, können wir Metriken zur Modellbewertung verwenden. 

Zu den gängigen Bewertungsmaßstäben gehören Genauigkeit (allgemeine Korrektheit), Präzision (Zuverlässigkeit positiver Vorhersagen) und Rückruf (wie gut das Modell tatsächlich positive Vorhersagen identifiziert). Sie mögen auf den ersten Blick ähnlich erscheinen, aber jede von ihnen konzentriert sich auf einen anderen Teil des Verhaltens eines Modells. 

In diesem Artikel werfen wir einen genaueren Blick auf jede dieser KI-Modell-Leistungskennzahlen. Wir werden auch untersuchen, wie sie sich zueinander verhalten und wie Sie die richtige Kennzahl für Ihren Anwendungsfall auswählen. Fangen wir an!

Metriken zur Modellbewertung sind beim maschinellen Lernen wichtig

Ein Modell des maschinellen Lernens scheint auf den ersten Blick eine gute Leistung zu erbringen. Aber ohne die richtigen Bewertungsmetriken ist es schwierig zu verstehen, wie genau die Ergebnisse sind. Diese Metriken geben der Modellbewertung Struktur und helfen bei der Beantwortung einer wichtigen Frage: Sind die Vorhersagen des Modells für eine bestimmte Aufgabe nützlich und zuverlässig?

Metriken wie Genauigkeit, Präzision und Rückruf geben KI-Entwicklern eine klare Möglichkeit, zu messen, wie gut ein Modell funktioniert. Wenn Sie beispielsweise verschiedene Modelle vergleichen, können Sie anhand dieser Metriken feststellen, welches Modell für eine bestimmte Aufgabe am besten geeignet ist. Sie helfen bei der Bewertung der Leistung und bei der Auswahl des Modells, das am besten zu den Zielen eines KI-Projekts passt.

Abbildung 1. Arbeitsablauf der Modellschulung und -bewertung(Quelle)

Diese Metriken machen auch Leistungsvergleiche objektiver. Anstatt sich auf Vermutungen oder unvollständige Beobachtungen zu verlassen, liefern sie messbare Erkenntnisse darüber, wie sich ein Modell in verschiedenen Situationen verhält. Auf diese Weise machen sie deutlich, welche Leistungsaspekte im jeweiligen Kontext am wichtigsten sind.

So hängt beispielsweise die Wahl der Metrik oft von der Anwendung ab. Bei KI-Anwendungen im Gesundheitswesen ist die Rückrufquote wichtig, da das Ziel darin besteht, so viele positive Fälle wie möglich zu identifizieren, auch wenn einige negative Fälle fälschlicherweise markiert werden. Im Gegensatz dazu kann ein E-Mail-Spamfilter der Präzision den Vorrang geben, um zu vermeiden, dass legitime E-Mails fälschlicherweise als Spam markiert werden.

Die Konfusionsmatrix: Die Grundlage der Klassifikationsmetriken

Die Konfusionsmatrix ist eine zwei-mal-zwei-Tabelle, die für die Bewertung von KI-Modellen grundlegend ist. Sie ordnet die Vorhersagen in vier Kategorien ein, indem sie die tatsächlichen Ergebnisse mit den vorhergesagten Ergebnissen (die Antworten des Modells) vergleicht. 

Dieser Vergleich bietet einen detaillierten Überblick über die Leistung des Modells. Er bildet die Grundlage für wichtige Bewertungsmetriken wie Präzision und Recall, die direkt aus den Werten in der Matrix berechnet werden.

Die Zeilen der Tabelle stehen für die tatsächlichen Klassen, die Spalten für die vorhergesagten Klassen. Jede Zelle zeigt die Anzahl der Ergebnisse in dieser Kategorie. Einfach ausgedrückt: Sie zeigt, wie viele Vorhersagen richtig waren und welche Fehler das Modell gemacht hat.

Die Konfusionsmatrix ist besonders nützlich, wenn die Daten unausgewogen sind, d. h. einige Kategorien haben viel mehr Beispiele als andere. Sie ist auch hilfreich, wenn verschiedene Arten von Fehlern unterschiedliche Kosten verursachen. 

Bei der Betrugserkennung ist es beispielsweise wichtig, betrügerische Aktivitäten zu erkennen, aber auch die falsche Kennzeichnung echter Transaktionen kann Probleme verursachen. Die Matrix macht deutlich, wie häufig die einzelnen Fehlertypen auftreten.

Elemente der Konfusionsmatrix

Hier finden Sie einen Überblick über die verschiedenen Elemente einer Konfusionsmatrix:

  • Wahr positiv (TP): Wenn das Modell eine positive Instanz korrekt vorhersagt, wird sie als wahres Positiv aufgezeichnet. Ein Beispiel: Ein Computer-Vision-Modell klassifiziert ein Fahrzeug in einem Bild richtig.

  • Wahres Negativ (TN): Ein echtes Negativ liegt vor, wenn das Modell einen negativen Fall korrekt identifiziert. Zum Beispiel markiert ein E-Mail-Klassifikator eine reguläre Nachricht als keinen Spam.

  • Falsches Positiv (FP): Das Modell erzeugt ein falsches Positiv, wenn es fälschlicherweise ein positives Ergebnis für einen Fall vorhersagt, der eigentlich negativ ist. Dies wird auch als Fehler vom Typ I bezeichnet und kann vorkommen, wenn ein Betrugserkennungssystem eine gültige Transaktion als betrügerisch kennzeichnet.

  • Falsches Negativ (FN): Ein falsches Negativ wird verzeichnet, wenn das Modell einen positiven Fall nicht erkennt und ihn fälschlicherweise als negativ vorhersagt. Dies wird auch als Fehler vom Typ II bezeichnet und kann auftreten, wenn ein Diagnoseinstrument eine Krankheit bei einem tatsächlich kranken Patienten übersieht.
Abb. 2. Die Elemente einer Konfusionsmatrix(Quelle)

Visuelle Darstellung und Interpretation der Konfusionsmatrix

Eine Konfusionsmatrix wird in einem Gitterformat angezeigt. Die vertikale Achse zeigt die tatsächlichen Klassen, die horizontale Achse die vorhergesagten Klassen. Korrekte Vorhersagen erscheinen entlang der Diagonale und stellen wahre Positive und wahre Negative dar.

Die Fehler liegen außerhalb der Diagonale und decken falsch positive und falsch negative Ergebnisse ab. Diese Struktur macht es einfach, Stärken und Schwächen zu erkennen.

Was bedeutet Genauigkeit beim maschinellen Lernen?

Die Genauigkeit ist eine der am häufigsten verwendeten Metriken zur Bewertung der Leistung eines Modells für maschinelles Lernen. Sie misst, wie oft die Vorhersagen über alle Klassen hinweg korrekt sind. Mit anderen Worten, sie beantwortet eine einfache Frage: Wie viele von allen Vorhersagen, die das KI-Modell gemacht hat, waren richtig?

Die Formel für die Genauigkeit ist die Anzahl der korrekten Vorhersagen (die sowohl wahr-positive als auch wahr-negative Vorhersagen umfasst) geteilt durch die Gesamtzahl der Vorhersagen. Die Genauigkeit ist einfach zu berechnen und leicht zu verstehen, weshalb sie ein gängiger Ausgangspunkt für die Modellbewertung ist.

Im Allgemeinen ist die Genauigkeit zuverlässig, wenn ausgewogene Datensätze verarbeitet werden. In unausgewogenen Datensätzen, in denen eine Klasse die anderen dominiert, kann die Genauigkeit jedoch oft irreführend sein. Ein Modell, das immer die Mehrheitsklasse vorhersagt, kann trotzdem eine hohe Genauigkeit erreichen, während es andere Minderheitsklassen nicht erkennt.

In einem Bilddatensatz, der nur wenige Bilder mit Fußgängern enthält, kann ein Modell, das für jedes Bild "kein Fußgänger" vorhersagt, zwar eine hohe Genauigkeit erreichen, aber die tatsächlichen Fußgänger nicht erkennen.

Der Grund dafür ist, dass die Genauigkeit allein nicht zeigt, welche Arten von Fehlern ein Modell macht oder wie oft sie auftreten. Deshalb ist es wichtig, auch Kennzahlen wie Präzision und Rückruf zu berücksichtigen, um zu verstehen, wie gut ein KI-Modell funktioniert.

Eintauchen in die Präzision: Minimierung von Fehlalarmen

Die Präzision ist eine wichtige Bewertungskennzahl, die die Genauigkeit der positiven Vorhersagen eines Modells misst. Sie beantwortet die Frage: Wie viele der als positiv vorhergesagten Instanzen waren richtig?

Die Präzisionsformel ist die Anzahl der richtig positiven Vorhersagen geteilt durch die Summe der richtig positiven und der falsch positiven Vorhersagen. Sie ist besonders wichtig, wenn eine positive Vorhersage kostspielig wäre, wenn sie sich als falsch herausstellen würde.

Abb. 3. Vergleich von Genauigkeit und Präzision.(Quelle)

Bei der Betrugserkennung beispielsweise kann ein Modell mit geringer Präzision viele gültige Transaktionen als betrügerisch kennzeichnen, was sowohl für die Benutzer als auch für die Support-Teams unnötige Probleme verursacht. Ein Modell mit hoher Präzision verringert dieses Risiko, indem es sicherstellt, dass die markierten Transaktionen mit größerer Wahrscheinlichkeit tatsächlich Betrug sind.

Eine hohe Präzision ist zwar gut, aber Modelle, die sich zu sehr darauf konzentrieren, können sehr selektiv werden und tatsächlich positive Fälle übersehen. Deshalb wird die Präzisionsmetrik oft zusammen mit dem Recall überprüft, um die Leistung ausgewogen zu halten.

Was ist ein Rückruf?

Recall ist eine Kennzahl, mit der gemessen wird, wie gut ein Modell tatsächlich positive Fälle identifiziert. Sie wird auch als Sensitivität oder True-Positive-Rate bezeichnet und beantwortet die Frage: Wie viele von allen tatsächlich positiven Fällen hat das Modell richtig erkannt?

Die Formel für die Rückrufquote ist die Anzahl der echten positiven Fälle geteilt durch die Summe der echten positiven und falschen negativen Fälle. Ein hoher Recall-Wert zeigt, dass das Modell die meisten der wirklich positiven Fälle in den Daten erfasst. 

Rückrufe sind in Branchen wie dem Gesundheitswesen von entscheidender Bedeutung, da die Nichterkennung einer Krankheit die Behandlung verzögern und die Patienten gefährden kann. Selbst wenn einige negative Fälle fälschlicherweise gekennzeichnet werden, bleibt die Identifizierung aller echten Fälle oberste Priorität.

Modelle, die sich nur auf die Wiederauffindbarkeit konzentrieren, können jedoch zu viele falsch-positive Ergebnisse anzeigen, was die Präzision senkt und die Gesamteffizienz des Modells beeinträchtigt. Ein ausgewogenes Verhältnis zwischen Recall und Präzision ist entscheidend für eine zuverlässige KI-Modellleistung.

Der Balanceakt: Kompromiss zwischen Präzision und Wiedererkennung

Präzision und Erinnerungsrate entwickeln sich oft in entgegengesetzte Richtungen. Wenn sich die eine verbessert, kann die andere abnehmen. Dieser Zielkonflikt ist eine häufige Herausforderung bei Aufgaben des maschinellen Lernens.

Ein hochpräzises Modell sagt etwas nur dann als positiv voraus, wenn es sicher ist. Dadurch wird die Zahl der Fehlalarme reduziert, aber es können echte positive Ergebnisse übersehen werden, was die Trefferquote senkt. Ein Modell, das versucht, jeden Positivbefund zu erfassen, erhöht die Trefferquote, riskiert aber mehr Fehlalarme, was die Präzision verringert.

Dieser Kompromiss wird deutlicher, wenn Sie die Entscheidungsschwelle des Modells anpassen. Der Schwellenwert ist der Grenzwert, den ein System verwendet, um eine Bewertung oder Wahrscheinlichkeit in eine Aktion oder Kennzeichnung umzuwandeln. Ein niedrigerer Schwellenwert führt dazu, dass das System häufiger positiv reagiert, was die Wiederauffindbarkeit erhöhen, aber die Genauigkeit verringern kann. Eine Anhebung des Schwellenwerts hat den gegenteiligen Effekt: Das Modell sagt weniger positive Ergebnisse voraus, die Genauigkeit verbessert sich, aber die Trefferquote sinkt in der Regel.

Nehmen wir an, Sie arbeiten an der Spam-Erkennung. Das Modell muss zwischen dem Risiko, dass Spam in den Posteingang gelangt, und dem Risiko, dass echte E-Mails blockiert werden, abwägen. Ein strenger Filter kann immer noch einige Spam-Mails übersehen, während ein nachsichtigerer Filter versehentlich legitime Nachrichten blockiert. Das richtige Gleichgewicht hängt vom Anwendungsfall und den Kosten der einzelnen Fehlertypen ab.

Die Bedeutung der Precision-Recall-Kurve

Die Präzisions-Rückruf-Kurve oder PR-Kurve zeigt, wie sich die Präzision und der Rückruf ändern, wenn sich die Entscheidungsschwelle des Modells ändert. Jeder Punkt stellt einen anderen Kompromiss zwischen den beiden dar. Die PR-Kurve ist besonders nützlich für unausgewogene Datensätze, bei denen eine Klasse viel seltener vorkommt. 

Sie bietet auch einen aussagekräftigeren Einblick als die ROC-Kurve (Receiver Operating Characteristic), die ebenfalls zeigt, wie gut ein Modell positive von negativen Ergebnissen bei verschiedenen Entscheidungsschwellenwerten trennt. Ein Modell mit hoher Präzision und hohem Rückruf hat eine Präzisions-Rückruf-Kurve, die in der Nähe der oberen rechten Ecke liegt, was im Allgemeinen ideal ist.

Einführung des F1-Scores: Eine kombinierte Metrik für das Gleichgewicht

Der F1-Score liefert einen einzigen Wert, der das Gleichgewicht zwischen Präzision und Recall wiedergibt. Der F1-Score wird berechnet als das zweifache Produkt aus Precision und Recall, geteilt durch die Summe aus Precision und Recall. Er ist nützlich, wenn sowohl falsch-positive als auch falsch-negative Ergebnisse eine Rolle spielen, und er ist hilfreich bei der Arbeit mit unausgewogenen Datensätzen oder wenn eine ausgewogene Ansicht der Modellleistung erforderlich ist.

Abb. 4. Berechnung des F1-Scores anhand von Precision und Recall(Quelle)

Mehr als Genauigkeit, Präzision und Erinnerungswert

Während Genauigkeit, Präzision und Wiederauffindbarkeit von entscheidender Bedeutung sind, bieten andere Metriken auf der Grundlage des Modelltyps und der Merkmale des Datensatzes zusätzliche Erkenntnisse. 

Im Folgenden finden Sie einige häufig verwendete Kennzahlen, mit denen sich verschiedene Aspekte der Leistung bewerten lassen:

  • Spezifität: Sie misst, wie gut das Modell tatsächliche Negative identifiziert. Sie ist nützlich, wenn es darauf ankommt, falsch-positive Ergebnisse zu vermeiden.

  • AUC: AUC, oder Area Under the Curve, gibt einen einzigen Wert an, der angibt, wie gut das Modell zwischen den Klassen unterscheiden kann.

  • Log-Verlust: Der logarithmische Verlust wird verwendet, um zu messen, wie sicher ein Modell bei seinen Vorhersagen ist, und benachteiligt falsche Vorhersagen, die mit hohem Vertrauen gemacht wurden, stärker. Hier bezieht sich das Vertrauen darauf, wie sicher das Modell bei seiner Vorhersage ist.

  • Multi-Label-Bewertung: Bei Multi-Label-Aufgaben werden die Metriken über alle Labels hinweg gemittelt, um die Gesamtleistung des Modells wiederzugeben.

Anwendung von Genauigkeit, Präzision und Wiedererkennungswert in der Computer Vision

Nachdem wir nun ein klareres Verständnis von Genauigkeit, Präzision und Wiedererkennungswert haben, wollen wir uns ansehen, wie diese Metriken in der Computer Vision angewendet werden.

Computer-Vision-Modelle wie Ultralytics YOLO11 unterstützen Aufgaben wie die Objekterkennung, bei der das Modell feststellt, welche Objekte in einem Bild vorhanden sind, und sie mithilfe von Begrenzungsrahmen lokalisiert. Jede Vorhersage umfasst sowohl die Objektbezeichnung als auch die Position des Objekts, was die Bewertung komplexer macht als die einfache Überprüfung, ob eine Bezeichnung korrekt ist.

Abb. 5. Ein Beispiel für die Verwendung von Ultralytics YOLO11 zur Objekterkennung.(Quelle)

Nehmen wir eine Einzelhandelsanwendung, bei der Kameras zur automatischen Verfolgung von Produkten in Regalen eingesetzt werden. Ein Objekterkennungsmodell könnte Artikel wie Müslischachteln, Limonadendosen oder Wasserflaschen identifizieren und ihre Positionen markieren. 

In diesem Fall gibt die Genauigkeit an, wie viele der erkannten Objekte tatsächlich korrekt sind. Eine hohe Genauigkeit bedeutet, dass das System falsch-positive Ergebnisse vermeidet, z. B. wenn ein Schatten oder ein Hintergrundobjekt als Produkt erkannt wird. Die Trefferquote zeigt, wie viele der echten Produkte im Regal das Modell erkennen konnte. Eine hohe Trefferquote bedeutet, dass weniger Artikel übersehen werden, was für genaue Bestandszählungen entscheidend ist.

Die Genauigkeit kann immer noch ein allgemeines Maß für die Korrektheit liefern, aber in dieser Art von Umgebung können selbst ein paar fehlende Produkte oder die Erkennung von Artikeln, die nicht vorhanden sind, große Auswirkungen auf die Bestandsverwaltung haben. Aus diesem Grund betrachten die Entwickler Präzision, Rückruf und Genauigkeit gemeinsam, um sicherzustellen, dass das System sowohl zuverlässig als auch für den praktischen Einsatz geeignet ist.

Genauigkeit, Präzision und Rückruf: Die wichtigsten Erkenntnisse

Genauigkeit, Präzision und Wiedererkennung zeigen jeweils verschiedene Aspekte der Leistung eines maschinellen Lernmodells. Sich nur auf eine Metrik zu verlassen, kann irreführend sein.

Tools und Metriken wie die Konfusionsmatrix, Precision-Recall-Kurven und der F1-Score helfen dabei, Kompromisse aufzuzeigen und Entscheidungen über Verbesserungen am ML-Modell zu treffen. Durch die Wahl der richtigen Kombination von Metriken für eine bestimmte KI-Lösung können Sie sicherstellen, dass die Modelle genau, zuverlässig und effektiv in realen Anwendungen sind.

Entdecken Sie unsere wachsende Gemeinschaft! Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, mit Ihren Computer Vision Projekten zu beginnen? Werfen Sie einen Blick auf unsere Lizenzierungsoptionen. Entdecken Sie AI in der Landwirtschaft und Vision AI in der Robotik, indem Sie unsere Lösungsseiten besuchen! 

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert