Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Genauigkeit vs. Präzision vs. Treffsicherheit im maschinellen Lernen

Abirami Vina

6 Minuten Lesezeit

20. August 2025

Erfahren Sie mehr über Genauigkeit, Präzision und Recall im Machine Learning. Entdecken Sie die Confusion Matrix, den F1-Score und wie Sie diese wichtigen Evaluationsmetriken verwenden können.

Maschinelles Lernen (ML) ist ein Zweig der künstlichen Intelligenz (KI), der sich auf die Entwicklung von Systemen konzentriert, die aus Daten lernen. Es spielt eine zentrale Rolle in vielen anderen Bereichen der KI, einschließlich Computer Vision, wo Maschinen Bilder interpretieren, und der Verarbeitung natürlicher Sprache, wo sie menschliche Sprache verstehen und generieren.

Oft verwenden solche KI-Modelle Deep-Learning-Techniken, um Vorhersagen aus Daten zu treffen. Obwohl solche Systeme sehr effektiv sein können, liefern sie nicht immer korrekte Vorhersagen. Einige Ergebnisse können zutreffend sein, während andere das Ziel verfehlen. 

Das Wissen, wie diese Fehler auftreten, ist ein wichtiger Bestandteil bei der Bewertung der Leistungsfähigkeit eines Modells. Um die Leistung zu messen, können wir Metriken zur Modellevaluierung verwenden. 

Gängige Evaluationsmetriken sind Genauigkeit (allgemeine Korrektheit), Präzision (Zuverlässigkeit positiver Vorhersagen) und Recall (wie gut das Modell tatsächliche Positive identifiziert). Sie mögen zunächst ähnlich erscheinen, aber jede konzentriert sich auf einen anderen Aspekt des Verhaltens eines Modells. 

In diesem Artikel werden wir uns jede dieser Metriken zur Bewertung der Leistung von KI-Modellen genauer ansehen. Wir werden auch untersuchen, wie sie zueinander in Beziehung stehen und wie Sie die richtige für Ihren Anwendungsfall auswählen. Los geht's!

Modellbewertungsmetriken sind im Machine Learning von Bedeutung

Ein Machine-Learning-Modell scheint anfangs gut zu funktionieren. Aber ohne die richtigen Bewertungskennzahlen ist es schwierig zu verstehen, wie genau seine Ergebnisse sind. Diese Kennzahlen geben der Modellbewertung eine Struktur und helfen, eine Schlüsselfrage zu beantworten: Sind die Vorhersagen des Modells für eine bestimmte Aufgabe nützlich und zuverlässig?

Metriken wie Genauigkeit, Präzision und Rückruf geben KI-Entwicklern eine klare Möglichkeit, zu messen, wie gut ein Modell funktioniert. Beim Vergleich verschiedener Modelle ermöglichen diese Metriken beispielsweise zu erkennen, welches Modell für eine bestimmte Aufgabe am besten geeignet ist. Sie helfen bei der Bewertung der Leistung und leiten die Wahl des Modells, das am besten zu den Zielen eines KI-Projekts passt.

Abb. 1. Workflow für Modelltraining und -evaluierung (Quelle)

Diese Metriken machen auch Leistungsvergleiche objektiver. Anstatt sich auf Vermutungen oder unvollständige Beobachtungen zu verlassen, bieten sie messbare Einblicke in das Verhalten eines Modells in verschiedenen Situationen. Dadurch heben sie hervor, welche Leistungsaspekte in jedem Kontext am wichtigsten sind.

Beispielsweise hängt die Wahl der Metrik oft von der Anwendung ab. In KI-Gesundheitsanwendungen ist die Trefferquote wichtig, da das Ziel darin besteht, so viele positive Fälle wie möglich zu identifizieren, auch wenn einige negative Fälle fälschlicherweise gekennzeichnet werden. Im Gegensatz dazu kann ein E-Mail-Spamfilter der Präzision Vorrang einräumen, um zu vermeiden, dass legitime E-Mails fälschlicherweise als Spam markiert werden.

Die Konfusionsmatrix: Die Grundlage der Klassifizierungsmetriken

Die Konfusionsmatrix ist eine Zwei-mal-Zwei-Tabelle, die für die Bewertung von KI-Modellen von grundlegender Bedeutung ist. Sie ordnet Vorhersagen in vier Kategorien ein, indem sie die tatsächlichen Ergebnisse mit den vorhergesagten Ergebnissen (den Antworten, die das Modell gibt) vergleicht. 

Dieser Vergleich bietet einen detaillierten Überblick über die Leistung des Modells. Er bildet die Grundlage für wichtige Bewertungskennzahlen wie Präzision und Rückruf, die direkt aus den Werten in der Matrix berechnet werden.

Die Zeilen der Tabelle stellen die tatsächlichen Klassen dar, und die Spalten stellen die vorhergesagten Klassen dar. Jede Zelle zeigt die Anzahl der Ergebnisse in dieser Kategorie. Einfach ausgedrückt, sie zeigt, wie viele Vorhersagen korrekt waren und welche Arten von Fehlern das Modell gemacht hat.

Die Konfusionsmatrix ist besonders nützlich, wenn die Daten unausgewogen sind, d. h. einige Kategorien haben viel mehr Beispiele als andere. Sie ist auch hilfreich, wenn verschiedene Arten von Fehlern unterschiedliche Kosten verursachen. 

Beispielsweise ist es bei der Betrugserkennung von entscheidender Bedeutung, betrügerische Aktivitäten aufzudecken, aber die falsche Kennzeichnung echter Transaktionen kann ebenfalls Probleme verursachen. Die Matrix macht deutlich, wie oft jede Art von Fehler auftritt.

Elemente der Konfusionsmatrix

Hier ist ein Überblick über die verschiedenen Elemente einer Konfusionsmatrix:

  • True positive (TP): Wenn das Modell eine positive Instanz korrekt vorhersagt, wird dies als True Positive erfasst. Beispielsweise klassifiziert ein Computer Vision Modell ein Fahrzeug in einem Bild korrekt.

  • True negative (TN): Ein True Negative tritt auf, wenn das Modell eine negative Instanz korrekt identifiziert. Beispielsweise kennzeichnet ein E-Mail-Klassifikator eine reguläre Nachricht als Nicht-Spam.

  • Falsch positiv (FP): Das Modell erzeugt ein falsch positives Ergebnis, wenn es fälschlicherweise ein positives Ergebnis für eine Instanz vorhersagt, die tatsächlich negativ ist. Dies wird auch als Fehler erster Art bezeichnet und kann auftreten, wenn ein Betrugserkennungssystem eine gültige Transaktion als betrügerisch kennzeichnet.

  • Falsch negativ (FN): Ein falsch negatives Ergebnis wird erfasst, wenn das Modell einen positiven Fall nicht erkennt und ihn fälschlicherweise als negativ vorhersagt. Dies wird auch als Fehler zweiter Art bezeichnet und kann auftreten, wenn ein Diagnosetool eine Krankheit bei einem Patienten übersieht, der tatsächlich krank ist.
Abb. 2. Die Elemente einer Konfusionsmatrix (Quelle)

Visuelle Darstellung und Interpretation der Konfusionsmatrix

Eine Konfusionsmatrix wird in einem Rasterformat angezeigt. Die vertikale Achse zeigt die tatsächlichen Klassen und die horizontale Achse die vorhergesagten Klassen. Korrekte Vorhersagen erscheinen entlang der Diagonalen und stellen True Positives und True Negatives dar.

Fehler liegen außerhalb der Diagonalen und umfassen falsch Positive und falsch Negative. Diese Struktur erleichtert das Erkennen von Stärken und Schwächen.

Was ist Genauigkeit (Accuracy) im Machine Learning?

Genauigkeit (Accuracy) ist eine der am häufigsten verwendeten Metriken zur Bewertung der Leistung eines Machine-Learning-Modells. Sie misst, wie oft die Vorhersagen über alle Klassen hinweg korrekt sind. Mit anderen Worten, sie beantwortet eine einfache Frage: Wie viele der Vorhersagen des KI-Modells waren richtig?

Die Formel für die Genauigkeit ist die Anzahl der korrekten Vorhersagen (die sowohl True Positives als auch True Negatives umfasst), dividiert durch die Gesamtzahl der Vorhersagen. Die Genauigkeit ist einfach zu berechnen und leicht zu verstehen, was sie zu einem gängigen Ausgangspunkt für die Modellbewertung macht.

Im Allgemeinen ist die Genauigkeit bei der Verarbeitung von ausgeglichenen Datensätzen zuverlässig. Die Genauigkeit kann jedoch bei unausgeglichenen Datensätzen, bei denen eine Klasse die anderen dominiert, oft irreführend sein. Ein Modell, das immer die Mehrheitsklasse vorhersagt, kann immer noch eine hohe Genauigkeitsrate erzielen, während es andere Minderheitsklassen nicht erkennt.

Beispielsweise kann in einem Bilddatensatz, in dem nur wenige Bilder Fußgänger enthalten, ein Modell, das für jedes Bild “kein Fußgänger” vorhersagt, immer noch eine hohe Genauigkeit erzielen, aber die tatsächlichen Fußgänger überhaupt nicht erkennen.

Das liegt daran, dass die Genauigkeit allein nicht zeigt, welche Arten von Fehlern ein Modell macht oder wie oft sie vorkommen. Deshalb ist es wichtig, auch Metriken wie Präzision und Recall zu betrachten, um vollständig zu verstehen, wie gut ein KI-Modell funktioniert.

Tief eintauchen in die Präzision: Minimierung von Fehlalarmen

Precision ist eine wichtige Evaluationsmetrik, die die Genauigkeit der positiven Vorhersagen eines Modells misst. Sie beantwortet die Frage: Von allen als positiv vorhergesagten Fällen, wie viele waren korrekt?

Die Präzisionsformel ist die Anzahl der True Positives geteilt durch die Summe der True Positives und False Positives. Sie ist besonders wichtig, wenn eine positive Vorhersage kostspielig wäre, wenn sie sich als falsch herausstellt.

Abb. 3. Vergleich von Genauigkeit und Präzision. (Quelle)

Beispielsweise kann ein Modell mit geringer Präzision bei der Betrugserkennung viele gültige Transaktionen als betrügerisch kennzeichnen, was unnötige Probleme für Benutzer und Support-Teams verursacht. Ein Modell mit hoher Präzision reduziert dieses Risiko, indem es sicherstellt, dass gekennzeichnete Transaktionen mit größerer Wahrscheinlichkeit tatsächlich Betrug sind.

Obwohl eine hohe Präzision gut ist, können Modelle, die sich zu sehr darauf konzentrieren, sehr selektiv werden und tatsächliche positive Fälle übersehen. Deshalb wird die Präzisionsmetrik oft zusammen mit dem Recall überprüft, um die Leistung im Gleichgewicht zu halten.

Was ist Recall?

Recall ist eine Metrik, die verwendet wird, um zu messen, wie gut ein Modell tatsächlich positive Fälle identifiziert. Sie ist bekannt als Sensitivität oder True-Positive-Rate und beantwortet die Frage: Von allen tatsächlich positiven Fällen, wie viele hat das Modell korrekt erkannt?

Die Formel für den Recall ist die Anzahl der True Positives dividiert durch die Summe aus True Positives und False Negatives. Ein hoher Recall-Wert zeigt, dass das Modell die meisten der tatsächlichen positiven Fälle in den Daten erfasst. 

Die Trefferquote (Recall) ist in Branchen wie dem Gesundheitswesen von entscheidender Bedeutung, wo das Übersehen einer Erkrankung die Behandlung verzögern und Patienten gefährden kann. Selbst wenn einige negative Fälle fälschlicherweise erkannt werden, bleibt die Identifizierung aller tatsächlichen Fälle oberste Priorität.

Modelle, die sich nur auf die Trefferquote (Recall) konzentrieren, können jedoch zu viele falsch-positive Ergebnisse liefern, was die Präzision verringert und die Gesamteffizienz des Modells beeinträchtigt. Das Ausbalancieren von Trefferquote und Präzision ist entscheidend für eine zuverlässige KI-Modell-Performance.

Der Balanceakt: Kompromiss zwischen Präzision und Rückruf

Präzision und Trefferrate entwickeln sich oft in entgegengesetzte Richtungen. Wenn sich eine verbessert, kann die andere sinken. Dieser Zielkonflikt ist eine häufige Herausforderung bei Aufgaben des maschinellen Lernens.

Ein Modell mit hoher Präzision sagt etwas nur dann als positiv voraus, wenn es sich sicher ist. Dies reduziert Fehlalarme, kann aber echte Positive übersehen, was die Trefferquote (Recall) senkt. Ein Modell, das versucht, jedes Positiv zu erfassen, erhöht die Trefferquote, riskiert aber mehr Fehlalarme, was die Präzision senkt.

Dieser Kompromiss wird deutlicher, wenn Sie den Entscheidungsschwellenwert des Modells anpassen. Der Schwellenwert ist der Grenzwert, den ein System verwendet, um eine Bewertung oder Wahrscheinlichkeit in eine Aktion oder ein Label umzuwandeln. Das Absenken des Schwellenwerts führt dazu, dass das System häufiger positiv reagiert, was die Trefferquote erhöhen, aber die Präzision verringern kann. Das Anheben des Schwellenwerts hat den gegenteiligen Effekt: Das Modell sagt weniger Positive voraus, die Präzision verbessert sich, aber die Trefferquote sinkt in der Regel.

Nehmen wir an, Sie arbeiten an der Spamerkennung. Das Modell muss das Risiko, Spam in den Posteingang gelangen zu lassen, gegen das Risiko abwägen, echte E-Mails zu blockieren. Ein strenger Filter übersieht möglicherweise immer noch etwas Spam, während ein nachsichtigerer Filter versehentlich legitime Nachrichten blockieren kann. Das richtige Gleichgewicht hängt vom Anwendungsfall und den Kosten für jede Art von Fehler ab.

Die Bedeutung der Precision-Recall-Kurve

Die Precision-Recall-Kurve oder PR-Kurve zeigt, wie sich Präzision und Recall ändern, wenn sich der Entscheidungsschwellenwert des Modells ändert. Jeder Punkt stellt einen anderen Kompromiss zwischen den beiden dar. Die PR-Kurve ist besonders nützlich für unausgewogene Datensätze, bei denen eine Klasse viel seltener vorkommt. 

Sie bietet auch aussagekräftigere Einblicke als die Receiver Operating Characteristic (ROC)-Kurve, die ebenfalls zeigt, wie gut ein Modell Positive von Negativen bei verschiedenen Entscheidungsschwellenwerten trennt. Ein Modell mit sowohl hoher Präzision als auch hoher Trefferquote wird eine Precision-Recall-Kurve haben, die sich in der Nähe der oberen rechten Ecke befindet, was im Allgemeinen ideal ist.

Einführung des F1-Scores: Eine kombinierte Metrik für Ausgewogenheit

Der F1-Score liefert einen einzelnen Wert, der das Gleichgewicht zwischen Präzision und Recall erfasst. Der F1-Score wird als das Zweifache des Produkts aus Präzision und Recall, dividiert durch die Summe von Präzision und Recall, berechnet. Er ist nützlich, wenn sowohl falsch-positive als auch falsch-negative Ergebnisse wichtig sind, und er ist hilfreich, wenn mit unausgewogenen Datensätzen gearbeitet wird oder eine ausgewogene Sicht auf die Modellleistung erforderlich ist.

Abb. 4. Berechnung des F1-Scores unter Verwendung von Präzision und Recall (Quelle)

Jenseits von Genauigkeit, Präzision und Treffsicherheit

Während Genauigkeit, Präzision und Rückruf wesentlich sind, bieten andere Metriken zusätzliche Einblicke basierend auf dem Modelltyp und den Datensatzmerkmalen. 

Hier sind einige häufig verwendete Metriken, die helfen, verschiedene Aspekte der Leistung zu bewerten:

  • Spezifität: Sie misst, wie gut das Modell tatsächlich negative Fälle identifiziert. Sie ist nützlich, wenn es wichtig ist, falsch positive Ergebnisse zu vermeiden.

  • AUC: AUC, oder Area Under the Curve, gibt einen einzelnen Score an, der widerspiegelt, wie gut das Modell zwischen Klassen unterscheiden kann.

  • Log Loss: Log Loss wird verwendet, um zu messen, wie zuversichtlich ein Modell bei Vorhersagen ist, und bestraft falsche Vorhersagen, die mit hoher Zuversicht getroffen werden, stärker. Hier bezieht sich Zuversicht darauf, wie sicher sich das Modell seiner Vorhersage ist.

  • Multi-Label-Evaluierung: Bei Multi-Label-Aufgaben werden Metriken über Labels gemittelt, um die Gesamtleistung des Modells widerzuspiegeln.

Anwendung von Genauigkeit, Präzision und Rückruf in der Computer Vision

Nachdem wir nun ein klareres Verständnis von Genauigkeit, Präzision und Rückruf haben, wollen wir uns ansehen, wie diese Metriken in der Computer Vision angewendet werden.

Computer-Vision-Modelle wie Ultralytics YOLO11 unterstützen Aufgaben wie die Objekterkennung, bei der das Modell erkennt, welche Objekte in einem Bild vorhanden sind, und diese mithilfe von Bounding Boxes lokalisiert. Jede Vorhersage enthält sowohl die Objektbezeichnung als auch ihre Position, was die Auswertung komplexer macht, als nur zu überprüfen, ob eine Bezeichnung korrekt ist.

Abb. 5. Ein Beispiel für die Verwendung von Ultralytics YOLO11 zur Objekterkennung. (Quelle)

Betrachten Sie eine Einzelhandels-Anwendung, bei der Kameras verwendet werden, um automatisch Produkte in Regalen zu verfolgen. Ein Objekterkennungsmodell könnte Artikel wie Müslikartons, Limonadendosen oder Wasserflaschen identifizieren und ihre Positionen markieren. 

In diesem Fall sagt uns die Präzision, wie viele der erkannten Elemente tatsächlich korrekt sind. Eine hohe Präzision bedeutet, dass das System falsch positive Ergebnisse vermeidet, z. B. das Kennzeichnen eines Schattens oder Hintergrundobjekts als Produkt. Die Wiedergabe zeigt, wie viele der tatsächlichen Produkte im Regal das Modell erkennen konnte. Eine hohe Wiedergabe bedeutet, dass weniger Artikel übersehen werden, was für genaue Bestandszahlen entscheidend ist.

Die Genauigkeit kann zwar immer noch ein allgemeines Maß für die Korrektheit liefern, aber in dieser Art von Umgebung kann das Fehlen auch nur weniger Produkte oder das Erkennen von Artikeln, die nicht vorhanden sind, große Auswirkungen auf das Bestandsmanagement haben. Aus diesem Grund betrachten Entwickler Präzision, Treffsicherheit und Genauigkeit zusammen, um sicherzustellen, dass das System sowohl zuverlässig als auch praxistauglich ist.

Genauigkeit, Präzision und Trefferrate: Wichtige Erkenntnisse

Genauigkeit, Präzision und Trefferrate beleuchten jeweils unterschiedliche Aspekte der Leistung eines Machine-Learning-Modells. Sich nur auf eine Metrik zu verlassen, kann irreführend sein.

Tools und Metriken wie die Confusion Matrix, Precision-Recall-Kurven und der F1-Score helfen, Trade-offs aufzudecken und Entscheidungen zur Verbesserung des ML-Modells zu treffen. Durch die Wahl der richtigen Kombination von Metriken für eine bestimmte KI-Lösung können Sie sicherstellen, dass Modelle in realen Anwendungen präzise, zuverlässig und effektiv sind.

Entdecken Sie unsere wachsende Community! Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Sind Sie bereit, mit Ihren Computer-Vision-Projekten zu beginnen? Werfen Sie einen Blick auf unsere Lizenzoptionen. Entdecken Sie KI in der Landwirtschaft und Vision AI in der Robotik, indem Sie unsere Lösungsseiten besuchen! 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert