Confusion Matrix
Lerne, wie eine Konfusionsmatrix die Klassifizierungsleistung bewertet. Erkunde TP, FP, TN und FN, um deine Ultralytics YOLO26-Modelle für eine bessere Genauigkeit zu optimieren.
Eine Konfusionsmatrix ist ein Werkzeug zur Leistungsmessung für Klassifizierungsprobleme beim maschinellen Lernen, bei denen das Ergebnis zwei oder mehr Klassen umfassen kann. Es handelt sich um eine Tabelle mit vier verschiedenen Kombinationen aus vorhergesagten und tatsächlichen Werten, die als grundlegendes Element für die Datenvisualisierung bei der Modellbewertung dient. Im Gegensatz zur einfachen Genauigkeit, die bei unausgeglichenen Datensätzen irreführend sein kann, bietet eine Konfusionsmatrix eine granulare Aufschlüsselung, wo ein Modell für Computer Vision (CV) Fehler macht. Durch den Vergleich der Vorhersagen mit den Ground Truth-Labels können Entwickler feststellen, ob das System zwei bestimmte Klassen verwechselt oder ein Objekt gar nicht erst erkennt.
Link to this sectionKernkomponenten der Matrix#
Die Matrix selbst ist bei der binären Klassifizierung typischerweise in vier Quadranten unterteilt, wobei sie sich bei Multi-Class-Problemen, wie sie von Ultralytics YOLO26 gehandhabt werden, entsprechend erweitert. Diese vier Komponenten stellen die Schnittmenge dessen dar, was das Modell vorhergesagt hat, im Vergleich zu dem, was tatsächlich im Bild vorhanden ist.
- True Positives (TP): Das Modell sagt die positive Klasse korrekt voraus. Bei einer Aufgabe zur Objekterkennung zeichnet das Modell beispielsweise erfolgreich einen Bounding Box um eine Person, die sich tatsächlich im Bild befindet.
- True Negatives (TN): Das Modell sagt die negative Klasse korrekt voraus. Dies ist in Szenarien wie der Anomalieerkennung entscheidend, wo das System korrekt identifiziert, dass ein hergestelltes Teil keine Defekte aufweist.
- False Positives (FP): Das Modell sagt fälschlicherweise die positive Klasse voraus. Dies wird oft als "Fehler Typ I" bezeichnet und tritt auf, wenn das System ein Objekt erkennt, das nicht vorhanden ist, etwa wenn eine Überwachungskamera einen Schatten als Eindringling markiert.
- False Negatives (FN): Das Modell sagt fälschlicherweise die negative Klasse voraus. Bekannt als "Fehler Typ II", passiert dies, wenn das Modell ein vorhandenes Objekt nicht erkennt und das Ziel im Wesentlichen "verpasst".
Link to this sectionAbgeleitete Metriken und Bedeutung#
Die Rohzahlen in einer Konfusionsmatrix werden verwendet, um fortgeschrittenere Metriken zu berechnen, die die Modellleistung beschreiben. Das Verständnis dieser abgeleiteten Werte ist für die Optimierung neuronaler Netze unerlässlich.
- Precision: Berechnet als TP / (TP + FP), gibt diese Metrik an, wie präzise die positiven Vorhersagen sind. Eine hohe Precision bedeutet weniger Fehlalarme.
- Recall (Sensitivity): Berechnet als TP / (TP + FN), misst dies die Fähigkeit des Modells, alle positiven Instanzen zu finden. Ein hoher Recall ist lebenswichtig, wenn das Übersehen eines Objekts schwerwiegende Folgen hat.
- F1 Score: Das harmonische Mittel aus Precision und Recall. Er liefert einen einzelnen Wert, der den Kompromiss zwischen beidem ausgleicht, was für den Vergleich verschiedener YOLO26-Modelle nützlich ist.
Link to this sectionPraxisanwendungen#
Die spezifischen Kosten von Fehlern, die durch die Konfusionsmatrix definiert werden, bestimmen, wie Modelle für verschiedene Branchen abgestimmt werden.
Im Bereich KI im Gesundheitswesen ist die Konfusionsmatrix eine Frage der Sicherheit. Beim Training eines Modells zur medizinischen Bildanalyse für die Tumorerkennung ist ein False Negative (ein Tumor wird übersehen) weit schlimmer als ein False Positive (ein gutartiger Fleck wird zur Überprüfung durch einen Arzt markiert). Daher priorisieren Ingenieure in diesen Matrizen den Recall gegenüber der Precision, um sicherzustellen, dass keine potenziellen Gesundheitsrisiken übersehen werden.
Umgekehrt ist in der Qualitätskontrolle in der Fertigung Effizienz der Schlüssel. Wenn ein System, das Teile am Fließband klassifiziert, zu viele False Positives erzeugt (gute Teile werden als fehlerhaft markiert), verursacht dies unnötigen Ausschuss und verlangsamt die Produktion. Hier hilft die Konfusionsmatrix den Ingenieuren dabei, das Modell auf eine maximale Precision abzustimmen, um sicherzustellen, dass das, was aussortiert wird, wirklich defekt ist, was die Arbeitsabläufe für automatisiertes maschinelles Lernen rationalisiert.
Link to this sectionGenerierung einer Konfusionsmatrix mit YOLO26#
Bei der Verwendung moderner Frameworks ist die Generierung dieser Matrix oft Teil der Standard-Validierungspipeline. Das folgende Beispiel demonstriert, wie man ein YOLO26-Modell validiert und mithilfe des ultralytics-Pakets auf die Daten der Konfusionsmatrix zugreift.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Validate the model on the COCO8 dataset
# This automatically generates and plots the confusion matrix
metrics = model.val(data="coco8.yaml")
# Access the confusion matrix object directly
print(metrics.confusion_matrix.matrix)Link to this sectionUnterscheidung verwandter Konzepte#
Es ist wichtig, die Konfusionsmatrix von ähnlichen Bewertungsbegriffen zu unterscheiden.
- Vs. Genauigkeit (Accuracy): Die Genauigkeit ist einfach das Verhältnis der korrekten Vorhersagen zu den gesamten Vorhersagen. Obwohl sie nützlich ist, kann die Genauigkeit bei unausgeglichenen Datensätzen höchst täuschend sein. Wenn zum Beispiel 95 % der E-Mails kein Spam sind, hat ein Modell, das für jede E-Mail "kein Spam" vorhersagt, eine Genauigkeit von 95 %, ist aber nutzlos. Die Konfusionsmatrix offenbart diesen Mangel, indem sie für die Spam-Klasse null True Positives anzeigt.
- Vs. ROC-Kurve: Die Konfusionsmatrix bietet eine Momentaufnahme der Leistung bei einem einzigen, spezifischen Konfidenzschwellenwert. Im Gegensatz dazu visualisiert die Receiver Operating Characteristic (ROC)-Kurve, wie sich die True Positive Rate und die False Positive Rate ändern, wenn dieser Schwellenwert variiert wird. Tools wie die Ultralytics Plattform ermöglichen es Nutzern, beide Visualisierungen zu erkunden, um den optimalen Betriebspunkt für ihren Einsatzbereich zu wählen.






