Konfidenz
KI-Konfidenzwerte definieren. Erfahren Sie, wie Modelle die Vorhersagesicherheit einschätzen, Schwellenwerte für Zuverlässigkeit festlegen und Konfidenz von Genauigkeit unterscheiden.
Im Machine Learning ist der Konfidenzwert ein numerischer Wert, der einer einzelnen Vorhersage zugewiesen wird und die Gewissheit des Modells angibt, dass die Vorhersage korrekt ist. Ausgedrückt als Prozentsatz oder Wahrscheinlichkeitswert zwischen 0 und 1 quantifiziert er den "Glauben" des Modells an seine eigene Ausgabe für eine einzelne Instanz. Beispielsweise könnte ein Modell wie Ultralytics YOLO11 in einer Objekterkennungs-Aufgabe ein Auto in einem Bild identifizieren und einen Konfidenzwert von 0,95 (oder 95 %) zuweisen, was darauf hindeutet, dass es sich seiner Feststellung sehr sicher ist. Dieser Wert ist eine wichtige Ausgabe, die Benutzern hilft, die Ergebnisse des Modells in realen Szenarien zu filtern, zu priorisieren und zu interpretieren.
Der Konfidenzwert wird typischerweise aus der Ausgabe der letzten Schicht eines neuronalen Netzes (NN) abgeleitet, oft einer Softmax- oder Sigmoid-Funktion. Dieser Wert ist von entscheidender Bedeutung in praktischen Anwendungen, bei denen ein Konfidenzschwellenwert festgelegt wird, um Vorhersagen zu verwerfen, die unter ein bestimmtes Maß an Sicherheit fallen. Durch die Anpassung dieses Schwellenwerts können Entwickler den Kompromiss zwischen der Erfassung aller relevanten Erkennungen und der Minimierung von False Positives ausgleichen, was eine wichtige Überlegung bei der Modellbereitstellung ist.
Anwendungsfälle in der Praxis
Konfidenzwerte sind entscheidend, um KI-Systeme zuverlässiger und handlungsfähiger zu machen. Sie ermöglichen es Systemen, Unsicherheiten einzuschätzen und entsprechend unterschiedliche Reaktionen auszulösen.
- Autonome Fahrzeuge: In selbstfahrenden Autos sind Konfidenzwerte für die Sicherheit von entscheidender Bedeutung. Ein Objektdetektor könnte einen Fußgänger mit 98 % Konfidenz identifizieren, ein klares Signal für das Fahrzeug, langsamer zu fahren oder anzuhalten. Umgekehrt, wenn er ein Objekt mit nur 30 % Konfidenz erkennt, könnte das System es als unsicher kennzeichnen und andere Sensoren verwenden, um seine Beschaffenheit zu überprüfen, bevor es Maßnahmen ergreift. Dies hilft, Unfälle zu verhindern, indem es sich auf Bedrohungen mit hoher Sicherheit konzentriert. Weitere Informationen zu diesem Thema finden Sie unter Die Rolle der KI in selbstfahrenden Autos.
- Medizinische Bildanalyse: Wenn ein KI-Modell medizinische Scans auf Anzeichen von Krankheiten analysiert, wie z. B. die Erkennung von Tumoren in der medizinischen Bildgebung, ist der Confidence Score von unschätzbarem Wert. Eine Erkennung mit 99 % Konfidenz kann sofort zur Überprüfung durch einen Radiologen gekennzeichnet werden. Ein Befund mit 60 % Konfidenz kann als „mehrdeutig“ oder „weitere Überprüfung erforderlich“ gekennzeichnet werden, wodurch sichergestellt wird, dass unsichere Fälle einer menschlichen Prüfung unterzogen werden, ohne Experten mit Fehlalarmen zu überlasten. Die FDA bietet Anleitungen zu KI/ML in Medizinprodukten.
Konfidenz vs. andere Metriken
Es ist wichtig, den Konfidenzwert einer einzelnen Vorhersage nicht mit den Gesamt-Evaluierungsmetriken des Modells zu verwechseln. Obwohl sie miteinander in Beziehung stehen, messen sie unterschiedliche Aspekte der Leistung:
- Genauigkeit: Misst den Gesamtprozentsatz der korrekten Vorhersagen für den gesamten Datensatz. Sie gibt einen allgemeinen Eindruck von der Leistung des Modells, spiegelt aber nicht die Sicherheit der einzelnen Vorhersagen wider. Ein Modell kann eine hohe Genauigkeit haben, aber dennoch einige Vorhersagen mit geringer Sicherheit machen.
- Präzision: Gibt den Anteil der positiven Vorhersagen an, die tatsächlich korrekt waren. Eine hohe Präzision bedeutet weniger Fehlalarme. Vertrauen spiegelt den Glauben des Modells an seine Vorhersage wider, der mit der Korrektheit übereinstimmen kann, aber nicht muss.
- Rückruf (Empfindlichkeit): Misst den Anteil der tatsächlich positiven Instanzen, die das Modell korrekt identifiziert hat. Eine hohe Trefferquote bedeutet, dass weniger Fälle nicht erkannt werden. Das Vertrauen bezieht sich nicht direkt darauf, wie viele tatsächlich positive Fälle gefunden wurden.
- F1-Score: Der harmonische Mittelwert von Precision und Recall, der eine einzige Metrik darstellt, die beide ausgleicht. Die Konfidenz bleibt ein Ergebnis auf Vorhersageebene und ist kein aggregiertes Maß für die Modellleistung.
- Mittlere durchschnittliche Präzision (mAP): Eine gängige Metrik in der Objekterkennung, die die Präzisions-Wiedererkennungskurve über verschiedene Vertrauensschwellen und Klassen hinweg zusammenfasst. Während die mAP-Berechnung Konfidenzschwellen beinhaltet, gilt die Konfidenzbewertung selbst für jede einzelne Erkennung.
- Kalibrierung: Bezieht sich darauf, wie gut die Konfidenzwerte mit der tatsächlichen Wahrscheinlichkeit der Richtigkeit übereinstimmen. Die Vorhersagen eines gut kalibrierten Modells mit einer Konfidenz von 80 % sollten in etwa 80 % der Fälle korrekt sein. Konfidenzwerte von modernen neuronalen Netzen sind nicht immer von Natur aus gut kalibriert, wie in der Forschung zur Modellkalibrierung diskutiert wird.
Zusammenfassend lässt sich sagen, dass die Konfidenz ein wertvoller Output ist, um die Sicherheit einzelner KI-Vorhersagen zu bewerten und so eine bessere Filterung, Priorisierung und Entscheidungsfindung in realen Anwendungen zu ermöglichen. Sie ergänzt Metriken, die die Gesamtleistung eines Modells bewerten, wie z. B. diejenigen, die Sie mit Tools wie Ultralytics HUB verfolgen und analysieren können, ist aber von diesen verschieden.