Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Messung der KI-Leistung zur Bewertung der Auswirkungen Ihrer Innovationen

Abirami Vina

5 Min. Lesezeit

22. August 2024

Mit den richtigen KPIs und Leistungsmetriken können Sie den Erfolg Ihrer KI-Innovationen überwachen. Erfahren Sie, wie Sie die Wirkung von KI-Anwendungen track und optimieren können.

Wir haben bereits untersucht, wie KI in verschiedenen Branchen wie dem Gesundheitswesen, der Fertigung und dem Tourismus eingesetzt werden kann. Wir haben uns auch damit beschäftigt, wie KI alltägliche Arbeitsaufgaben verbessern kann, und führende KI-Geschäftsideen diskutiert. All diese Diskussionen führen unweigerlich zu derselben Schlüsselfrage: Wie können wir den Erfolg solcher KI-Implementierungen messen? Es ist eine wichtige Frage, denn die bloße Bereitstellung von KI-Lösungen reicht nicht aus. Sicherzustellen, dass diese Lösungen tatsächlich Ergebnisse liefern, macht sie zu einem Wendepunkt. 

Wir können KI-Leistungsmetriken messen, um festzustellen, ob ein KI-Modell wirklich effektiv ist, um Prozesse effizienter zu gestalten, Innovationen anzustoßen oder Probleme zu lösen. Indem wir uns auf die richtigen Key Performance Indicators (KPIs) konzentrieren, können wir verstehen, wie gut eine KI-Lösung funktioniert und wo sie möglicherweise verbessert werden muss.

In diesem Artikel werden wir untersuchen, wie der Erfolg von KI-Implementierungen mit den wichtigsten KPIs gemessen werden kann. Wir werden die Unterschiede zwischen Business-KPIs und KI-Performance-KPIs behandeln, wichtige Metriken wie Präzision und Treffsicherheit durchgehen und Ihnen helfen, die besten KPIs für Ihre spezifischen KI-Lösungen auszuwählen.

Der Unterschied zwischen KI-Business-KPIs und KI-Performance-KPIs

__wf_reserved_inherit
Abb. 1. Vergleich von KI-Business-KPIs und KI-Performance-KPIs.

Wenn man an KPIs denkt, geht man natürlich davon aus, dass es sich um Geschäftskennzahlen wie Kapitalrendite (ROI), Kosteneinsparungen oder generierte Einnahmen handelt – insbesondere, wenn es um Enterprise AI geht. Diese KI-Geschäfts-KPIs messen, wie sich KI auf den Gesamterfolg eines Unternehmens auswirkt, und stimmen mit umfassenderen Geschäftszielen überein. 

Allerdings konzentrieren sich die AI Performance KPIs darauf, wie gut das KI-System selbst funktioniert, wobei Metriken wie Genauigkeit, Präzision und Rückruf verwendet werden. Wir werden im Folgenden auf die Details dieser Metriken eingehen, aber im Wesentlichen stellen Performance KPIs sicher, dass ein KI-Modell seine Aufgabe effektiv erfüllt, während Business KPIs die finanziellen und strategischen Vorteile von KI aufzeigen.

Bestimmte Metriken können tatsächlich beiden Zwecken dienen. Zum Beispiel können Effizienzsteigerungen, wie die Reduzierung des Zeit- oder Ressourcenaufwands für die Erledigung einer Aufgabe, sowohl ein Performance-KPI (das zeigt, wie gut die KI-Lösung funktioniert) als auch ein Business-KPI (das Kosteneinsparungen und Produktivitätsverbesserungen misst) sein. Kundenzufriedenheit ist eine weitere Crossover-Metrik. Sie kann den Erfolg eines KI-gestützten Kundendiensttools sowohl in Bezug auf seine technische Leistung als auch auf seine Auswirkungen auf die allgemeinen Geschäftsziele widerspiegeln.

Die wichtigsten Kennzahlen für die KI-Leistung verstehen

Es gibt einige gängige Metriken, mit denen gemessen wird, wie gut ein KI-Modell funktioniert. Zuerst werden wir uns ihre Definition ansehen und wie sie berechnet werden. Dann werden wir sehen, wie diese Metriken überwacht werden können.

Präzision

Die Präzision ist eine Messgröße, die angibt, wie genau ein KI-Modell "True Positives" identifiziert (Fälle, in denen das Modell ein Objekt oder einen Zustand richtig identifiziert). Bei einem Gesichtserkennungssystem beispielsweise würde ein wahrer Positivbefund auftreten, wenn das System das Gesicht einer Person, auf das es trainiert wurde, richtig erkennt und identifiziert detect

Um die Präzision zu berechnen, zählen Sie zuerst die Anzahl der True Positives. Diese Zahl teilen Sie dann durch die Gesamtzahl der Elemente, die das Modell als positiv gekennzeichnet hat. Diese Gesamtzahl umfasst sowohl korrekte Identifizierungen als auch Fehler, die als False Positives bezeichnet werden. Im Wesentlichen sagt Ihnen die Präzision, wie oft das Modell richtig liegt, wenn es behauptet, etwas erkannt zu haben.

__wf_reserved_inherit
Abb. 2. Precision verstehen.

Dies ist besonders wichtig in Szenarien, in denen die Folgen von falsch-positiven Ergebnissen kostspielig oder störend sein können. In der automatisierten Fertigung beispielsweise deutet eine hohe Präzisionsrate darauf hin, dass das System fehlerhafte Produkte genauer erkennen und das unnötige Verwerfen oder Nachbearbeiten von guten Artikeln verhindern kann. Ein weiteres gutes Beispiel ist die Sicherheitsüberwachung. Eine hohe Präzision trägt dazu bei, Fehlalarme zu minimieren und sich nur auf echte Bedrohungen zu konzentrieren, die eine Sicherheitsmaßnahme erfordern.

Recall (Trefferquote)

Der Rückruf hilft dabei, die Fähigkeit eines KI-Modells zu messen, alle relevanten Instanzen oder "True Positives" innerhalb eines Datensatzes zu identifizieren. Einfach ausgedrückt: Sie gibt an, wie gut ein KI-System alle tatsächlichen Fälle eines Zustands oder Objekts erfassen kann, die es detect soll. Der Rückruf kann berechnet werden, indem die Anzahl der korrekten Erkennungen durch die Gesamtzahl der positiven Fälle, die hätten erkannt werden sollen, geteilt wird (dazu gehören sowohl die Fälle, die das Modell korrekt identifiziert hat, als auch die, die es nicht erkannt hat).

Betrachten Sie ein KI-gestütztes medizinisches Bildgebungssystem, das zur Krebserkennung eingesetzt wird. Der Recall spiegelt in diesem Zusammenhang den Prozentsatz der tatsächlichen Krebsfälle wider, die das System korrekt identifiziert. Ein hoher Recall ist in solchen Szenarien von entscheidender Bedeutung, da das Übersehen einer Krebsdiagnose schwerwiegende Folgen für die Patientenversorgung haben kann.

Präzision versus Treffsicherheit

Präzision und Treffsicherheit sind wie zwei Seiten derselben Medaille, wenn es um die Bewertung der Leistung eines KI-Modells geht, und sie erfordern oft ein Gleichgewicht. Die Herausforderung besteht darin, dass die Verbesserung der einen Metrik oft auf Kosten der anderen geht. 

Nehmen wir an, Sie streben eine höhere Präzision an. Das Modell kann selektiver werden und nur noch positive Ergebnisse identifizieren, bei denen es sich sehr sicher ist. Wenn Sie andererseits versuchen, die Trefferquote zu verbessern, kann das Modell mehr positive Ergebnisse identifizieren, was aber auch mehr falsch positive Ergebnisse einschließen und die Präzision verringern könnte. 

Entscheidend ist es, das richtige Gleichgewicht zwischen Präzision und Trefferrate zu finden, basierend auf den spezifischen Anforderungen Ihrer Anwendung. Ein nützliches Werkzeug hierfür ist die Precision-Recall-Kurve, die die Beziehung zwischen den beiden Metriken bei verschiedenen Schwellenwerten aufzeigt. Durch die Analyse dieser Kurve können Sie den optimalen Punkt bestimmen, an dem das Modell für Ihren spezifischen Anwendungsfall am besten funktioniert. Das Verständnis des Kompromisses hilft beim Feinabstimmen von KI-Modellen, um für ihre vorgesehenen Anwendungsfälle optimal zu funktionieren.

__wf_reserved_inherit
Abb. 3. Ein Beispiel für eine Precision-Recall-Kurve.

Mittlere durchschnittliche GenauigkeitmAP)

Mean Average PrecisionmAP) ist eine Metrik zur Bewertung der Leistung von KI-Modellen für Aufgaben wie die Objekterkennung, bei denen das Modell die Objekte identifizieren und klassifizieren muss. classifymAP gibt Ihnen eine einzige Punktzahl, die angibt, wie gut das Modell in allen verschiedenen Kategorien abschneidet, für die es trainiert wurde. Schauen wir uns an, wie er berechnet wird.

Die Fläche unter einer Precision-Recall-Kurve gibt die durchschnittliche PräzisionAP) für diese Klasse an. AP misst, wie genau das Modell Vorhersagen für eine bestimmte Klasse trifft, wobei sowohl die Präzision als auch der Abruf über verschiedene Konfidenzniveaus hinweg berücksichtigt werden (die Konfidenzniveaus geben an, wie sicher das Modell in seinen Vorhersagen ist). Nachdem die AP für jede Klasse berechnet wurde, wird der mAP durch Mittelwertbildung dieser AP über alle Klassen ermittelt.

__wf_reserved_inherit
Abb. 4. Die durchschnittliche Präzision verschiedener Klassen.

mAP ist nützlich bei Anwendungen wie dem autonomen Fahren, wo mehrere Objekte wie Fußgänger, Fahrzeuge und Verkehrsschilder gleichzeitig erkannt werden müssen. Eine hohe mAP bedeutet, dass das Modell in allen Kategorien gleichbleibend gut abschneidet, was es in einer Vielzahl von Szenarien zuverlässig und genau macht.

Leistungsmetriken mühelos berechnen

Die Formeln und Methoden zur Berechnung der wichtigsten KI-Leistungskennzahlen können entmutigend wirken. Mit Tools wie dem Ultralytics ist dies jedoch einfach und schnell möglich. Unabhängig davon, ob Sie an Objekterkennungs-, Segmentierungs- oder Klassifizierungsaufgaben arbeiten, bietet Ultralytics die notwendigen Dienstprogramme, um wichtige Metriken wie Präzision, Rückruf und mittlere durchschnittliche PräzisionmAP) schnell zu berechnen.

Um mit der Berechnung von Leistungsmetriken mit Ultralytics zu beginnen, können Sie das Ultralytics wie unten gezeigt installieren.

In diesem Beispiel laden wir ein vorgebildetes YOLOv8 und verwenden es zur Validierung von Leistungsmetriken, aber Sie können jedes der von Ultralytics unterstützten Modelle laden. So können Sie es tun:

Sobald das Modell geladen ist, können Sie die Validierung Ihres Datensatzes durchführen. Das folgende Codeschnipsel hilft Ihnen bei der Berechnung verschiedener Leistungsmetriken, einschließlich Präzision, Recall und mAP:

Der Einsatz von Tools wie Ultralytics erleichtert die Berechnung von Leistungskennzahlen erheblich, so dass Sie mehr Zeit für die Verbesserung Ihres Modells aufwenden können und sich weniger Gedanken über die Details des Bewertungsprozesses machen müssen.

Wie wird die KI-Leistung nach der Bereitstellung gemessen?

Bei der Entwicklung Ihres KI-Modells ist es einfach, seine Leistung in einer kontrollierten Umgebung zu testen. Sobald das Modell jedoch eingesetzt ist, können die Dinge komplizierter werden. Glücklicherweise gibt es Tools und Best Practices, die Ihnen helfen können, Ihre KI-Lösung nach der Bereitstellung zu überwachen

Tools wie Prometheus, Grafana und Evidently AI sind darauf ausgelegt, die Leistung Ihres Modells kontinuierlich track . Sie bieten Einblicke in Echtzeit, detect Anomalien und warnen Sie vor möglichen Problemen. Diese Tools gehen über die herkömmliche Überwachung hinaus und bieten automatisierte, skalierbare Lösungen, die sich an die dynamische Natur von KI-Modellen in der Produktion anpassen.

Um den Erfolg Ihres KI-Modells nach der Bereitstellung zu messen, sollten Sie die folgenden Best Practices beachten:

  • Legen Sie klare Leistungskennzahlen fest: Legen Sie wichtige Kennzahlen wie Genauigkeit, Präzision und Reaktionszeit fest, um regelmäßig zu überprüfen, wie gut Ihr Modell funktioniert.
  • Regelmäßige Überprüfung auf Data Drift: Achten Sie auf Veränderungen in den Daten, die Ihr Modell verarbeitet, da dies die Vorhersagen beeinträchtigen kann, wenn es nicht richtig gehandhabt wird.
  • A/B-Tests durchführen: Verwenden Sie A/B-Tests, um die Leistung Ihres aktuellen Modells mit neuen Versionen oder Optimierungen zu vergleichen. Dies ermöglicht es Ihnen, Verbesserungen oder Verschlechterungen im Modellverhalten quantitativ zu bewerten.
  • Leistung dokumentieren und prüfen: Führen Sie detaillierte Protokolle über Leistungskennzahlen und Änderungen an Ihrem KI-System. Dies ist entscheidend für Audits, Compliance und die Verbesserung der Architektur Ihres Modells im Laufe der Zeit.

Die Auswahl optimaler KI-KPIs ist nur der Anfang

Die erfolgreiche Bereitstellung und Verwaltung einer KI-Lösung hängt von der Auswahl der richtigen KPIs und deren Aktualisierung ab. Insgesamt ist die Wahl von Metriken, die hervorheben, wie gut die KI-Lösung technisch und in Bezug auf die geschäftlichen Auswirkungen funktioniert, von entscheidender Bedeutung. Da sich die Dinge ändern, sei es durch technologische Fortschritte oder Veränderungen in Ihrer Geschäftsstrategie, ist es wichtig, diese KPIs zu überprüfen und anzupassen. 

Indem Sie Ihre Leistungsüberprüfungen dynamisch gestalten, können Sie Ihr KI-System relevant und effektiv halten. Indem Sie diese Metriken stets im Blick behalten, erhalten Sie wertvolle Einblicke, die Ihnen helfen, Ihre Abläufe zu verbessern. Ein proaktiver Ansatz garantiert, dass Ihre KI-Bemühungen wirklich wertvoll sind und Ihr Unternehmen voranbringen!

Treten Sie unserer Community bei und entwickeln Sie mit uns Innovationen! Erkunden Sie unser GitHub-Repository, um unsere KI-Fortschritte zu sehen. Erfahren Sie, wie wir Branchen wie Fertigung und Gesundheitswesen mit bahnbrechender KI-Technologie neu gestalten. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten