Vertrauen
Definieren Sie AI-Konfidenzwerte. Erfahren Sie, wie Modelle die Vorhersagesicherheit messen, Schwellenwerte für die Zuverlässigkeit festlegen und Vertrauen von Genauigkeit unterscheiden.
Beim maschinellen Lernen ist der Konfidenzwert ein numerischer Wert, der einer einzelnen Vorhersage zugewiesen wird und angibt, wie sicher das Modell ist, dass die Vorhersage richtig ist. Ausgedrückt als Prozentsatz oder Wahrscheinlichkeitswert zwischen 0 und 1, quantifiziert er den "Glauben" des Modells an seine eigene Ausgabe für einen einzelnen Fall. Beispielsweise könnte ein Modell wie Ultralytics YOLO11 bei einer Objekterkennungsaufgabe ein Auto in einem Bild identifizieren und einen Konfidenzwert von 0,95 (oder 95 %) zuweisen, was bedeutet, dass es sich seines Ergebnisses sehr sicher ist. Dieser Wert ist eine wichtige Ausgabe, die den Benutzern hilft, die Ergebnisse des Modells in realen Szenarien zu filtern, zu priorisieren und zu interpretieren.
Der Konfidenzwert wird in der Regel von der Ausgabe der letzten Schicht eines neuronalen Netzes (NN) abgeleitet, häufig eine Softmax- oder Sigmoidfunktion. Dieser Wert ist in praktischen Anwendungen von Bedeutung, bei denen eine Vertrauensschwelle festgelegt wird, um Vorhersagen zu verwerfen, die unter ein bestimmtes Maß an Sicherheit fallen. Durch die Anpassung dieses Schwellenwerts können die Entwickler einen Kompromiss zwischen der Erfassung aller relevanten Erkennungen und der Minimierung von Fehlalarmen finden, was ein wichtiger Aspekt bei der Modellbereitstellung ist.
Anwendungen in der realen Welt
Konfidenzwerte sind wichtig, um KI-Systeme zuverlässiger und handlungsfähiger zu machen. Sie ermöglichen es den Systemen, Unsicherheiten einzuschätzen und entsprechend unterschiedliche Reaktionen auszulösen.
- Autonome Fahrzeuge: Bei selbstfahrenden Autos sind Vertrauenswerte für die Sicherheit entscheidend. Ein Objektdetektor könnte einen Fußgänger mit 98%iger Sicherheit erkennen, was ein klares Signal für das Fahrzeug wäre, abzubremsen oder anzuhalten. Wird hingegen ein Objekt mit einer Wahrscheinlichkeit von nur 30 % erkannt, kann das System es als unsicher einstufen und andere Sensoren zur Überprüfung der Art des Objekts heranziehen, bevor es Maßnahmen ergreift. Dies hilft, Unfälle zu vermeiden, indem es sich auf Gefahren konzentriert, die mit hoher Wahrscheinlichkeit auftreten. Weitere Einzelheiten zu diesem Thema finden Sie in dem Artikel über die Rolle der KI in selbstfahrenden Autos.
- Medizinische Bildanalyse: Wenn ein KI-Modell medizinische Scans auf Anzeichen von Krankheiten analysiert, z. B. bei der Erkennung von Tumoren in der medizinischen Bildgebung, ist die Konfidenzbewertung von unschätzbarem Wert. Ein Befund mit 99 % Sicherheit kann sofort zur Überprüfung durch einen Radiologen markiert werden. Ein Befund mit einer Konfidenz von 60 % kann als "unklar" oder "muss weiter geprüft werden" gekennzeichnet werden, um sicherzustellen, dass unsichere Fälle von Menschen geprüft werden, ohne dass die Experten mit Fehlalarmen überfordert werden. Die FDA bietet einen Leitfaden für KI/ML in medizinischen Geräten.
Vertrauen vs. andere Metriken
Es ist wichtig, den Konfidenzwert einer einzelnen Vorhersage nicht mit den Metriken der Gesamtmodellbewertung zu verwechseln. Sie sind zwar verwandt, messen aber unterschiedliche Aspekte der Leistung:
- Genauigkeit: Misst den Gesamtprozentsatz der korrekten Vorhersagen für den gesamten Datensatz. Sie gibt einen allgemeinen Eindruck von der Leistung des Modells, spiegelt aber nicht die Sicherheit der einzelnen Vorhersagen wider. Ein Modell kann eine hohe Genauigkeit haben, aber dennoch einige Vorhersagen mit geringer Sicherheit machen.
- Genauigkeit: Gibt den Anteil der positiven Vorhersagen an, die tatsächlich korrekt waren. Eine hohe Genauigkeit bedeutet weniger Fehlalarme. Vertrauen spiegelt den Glauben des Modells an seine Vorhersage wider, der mit der Korrektheit übereinstimmen kann, aber nicht muss.
- Rückruf (Sensitivität): Misst den Anteil der tatsächlich positiven Instanzen, die das Modell korrekt identifiziert hat. Eine hohe Trefferquote bedeutet, dass weniger Fälle nicht erkannt werden. Das Vertrauen bezieht sich nicht direkt darauf, wie viele tatsächlich positive Fälle gefunden wurden.
- F1-Score: Der harmonische Mittelwert von Precision und Recall, der eine einzige Metrik darstellt, die beide ausbalanciert. Die Konfidenz bleibt ein Ergebnis auf Vorhersageebene und ist kein aggregiertes Maß für die Modellleistung.
- Mittlere durchschnittliche Präzision (mAP): Eine gängige Metrik in der Objekterkennung, die die Präzisions-Wiedererkennungskurve über verschiedene Vertrauensschwellen und Klassen hinweg zusammenfasst. Während die mAP-Berechnung Konfidenzschwellen beinhaltet, gilt die Konfidenzbewertung selbst für jede einzelne Erkennung.
- Kalibrierung: Bezieht sich darauf, wie gut die Konfidenzwerte mit der tatsächlichen Wahrscheinlichkeit der Korrektheit übereinstimmen. Die Vorhersagen eines gut kalibrierten Modells mit einer Konfidenz von 80 % sollten in etwa 80 % der Fälle richtig sein. Konfidenzwerte von modernen neuronalen Netzen sind nicht immer von Natur aus gut kalibriert, wie in der Forschung zur Modellkalibrierung erörtert.
Zusammenfassend lässt sich sagen, dass das Konfidenzniveau ein wertvolles Ergebnis für die Bewertung der Sicherheit einzelner KI-Vorhersagen ist und eine bessere Filterung, Priorisierung und Entscheidungsfindung in realen Anwendungen ermöglicht. Sie ergänzt die Metriken zur Bewertung der Gesamtleistung eines Modells, die Sie mit Tools wie Ultralytics HUB verfolgen und analysieren können, unterscheidet sich jedoch von ihnen.