Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Messung der KI-Leistung zur Bewertung der Auswirkungen Ihrer Innovationen

Abirami Vina

5 Min. Lesezeit

22. August 2024

Sie können den Erfolg Ihrer KI-Innovationen mit den richtigen KPIs und Leistungskennzahlen überwachen. Erfahren Sie, wie Sie die Auswirkungen von KI-Anwendungen verfolgen und optimieren können.

Wir haben bereits untersucht, wie KI in verschiedenen Branchen wie dem Gesundheitswesen, der Fertigung und dem Tourismus eingesetzt werden kann. Wir haben uns auch damit beschäftigt, wie KI alltägliche Arbeitsaufgaben verbessern kann, und führende KI-Geschäftsideen diskutiert. All diese Diskussionen führen unweigerlich zu derselben Schlüsselfrage: Wie können wir den Erfolg solcher KI-Implementierungen messen? Es ist eine wichtige Frage, denn die bloße Bereitstellung von KI-Lösungen reicht nicht aus. Sicherzustellen, dass diese Lösungen tatsächlich Ergebnisse liefern, macht sie zu einem Wendepunkt. 

Wir können KI-Leistungsmetriken messen, um festzustellen, ob ein KI-Modell wirklich effektiv ist, um Prozesse effizienter zu gestalten, Innovationen anzustoßen oder Probleme zu lösen. Indem wir uns auf die richtigen Key Performance Indicators (KPIs) konzentrieren, können wir verstehen, wie gut eine KI-Lösung funktioniert und wo sie möglicherweise verbessert werden muss.

In diesem Artikel werden wir untersuchen, wie der Erfolg von KI-Implementierungen mit den wichtigsten KPIs gemessen werden kann. Wir werden die Unterschiede zwischen Business-KPIs und KI-Performance-KPIs behandeln, wichtige Metriken wie Präzision und Treffsicherheit durchgehen und Ihnen helfen, die besten KPIs für Ihre spezifischen KI-Lösungen auszuwählen.

Der Unterschied zwischen KI-Business-KPIs und KI-Performance-KPIs

__wf_reserved_inherit
Abb. 1. Vergleich von KI-Business-KPIs und KI-Performance-KPIs.

Wenn man an KPIs denkt, geht man natürlich davon aus, dass es sich um Geschäftskennzahlen wie Kapitalrendite (ROI), Kosteneinsparungen oder generierte Einnahmen handelt – insbesondere, wenn es um Enterprise AI geht. Diese KI-Geschäfts-KPIs messen, wie sich KI auf den Gesamterfolg eines Unternehmens auswirkt, und stimmen mit umfassenderen Geschäftszielen überein. 

Allerdings konzentrieren sich die AI Performance KPIs darauf, wie gut das KI-System selbst funktioniert, wobei Metriken wie Genauigkeit, Präzision und Rückruf verwendet werden. Wir werden im Folgenden auf die Details dieser Metriken eingehen, aber im Wesentlichen stellen Performance KPIs sicher, dass ein KI-Modell seine Aufgabe effektiv erfüllt, während Business KPIs die finanziellen und strategischen Vorteile von KI aufzeigen.

Bestimmte Metriken können tatsächlich beiden Zwecken dienen. Zum Beispiel können Effizienzsteigerungen, wie die Reduzierung des Zeit- oder Ressourcenaufwands für die Erledigung einer Aufgabe, sowohl ein Performance-KPI (das zeigt, wie gut die KI-Lösung funktioniert) als auch ein Business-KPI (das Kosteneinsparungen und Produktivitätsverbesserungen misst) sein. Kundenzufriedenheit ist eine weitere Crossover-Metrik. Sie kann den Erfolg eines KI-gestützten Kundendiensttools sowohl in Bezug auf seine technische Leistung als auch auf seine Auswirkungen auf die allgemeinen Geschäftsziele widerspiegeln.

Die wichtigsten Kennzahlen für die KI-Leistung verstehen

Es gibt einige gängige Metriken, mit denen gemessen wird, wie gut ein KI-Modell funktioniert. Zuerst werden wir uns ihre Definition ansehen und wie sie berechnet werden. Dann werden wir sehen, wie diese Metriken überwacht werden können.

Präzision

Präzision ist eine Metrik, die misst, wie genau ein KI-Modell "True Positives" identifiziert (Fälle, in denen das Modell ein Objekt oder einen Zustand korrekt als das identifiziert, was es sein soll). Zum Beispiel würde in einem Gesichtserkennungssystem ein "True Positive" auftreten, wenn das System das Gesicht einer Person, für deren Erkennung es trainiert wurde, korrekt erkennt und identifiziert. 

Um die Präzision zu berechnen, zählen Sie zuerst die Anzahl der True Positives. Diese Zahl teilen Sie dann durch die Gesamtzahl der Elemente, die das Modell als positiv gekennzeichnet hat. Diese Gesamtzahl umfasst sowohl korrekte Identifizierungen als auch Fehler, die als False Positives bezeichnet werden. Im Wesentlichen sagt Ihnen die Präzision, wie oft das Modell richtig liegt, wenn es behauptet, etwas erkannt zu haben.

__wf_reserved_inherit
Abb. 2. Precision verstehen.

Dies ist besonders wichtig in Szenarien, in denen die Folgen von falsch-positiven Ergebnissen kostspielig oder störend sein können. In der automatisierten Fertigung beispielsweise deutet eine hohe Präzisionsrate darauf hin, dass das System fehlerhafte Produkte genauer erkennen und das unnötige Verwerfen oder Nachbearbeiten von guten Artikeln verhindern kann. Ein weiteres gutes Beispiel ist die Sicherheitsüberwachung. Eine hohe Präzision trägt dazu bei, Fehlalarme zu minimieren und sich nur auf echte Bedrohungen zu konzentrieren, die eine Sicherheitsmaßnahme erfordern.

Recall (Trefferquote)

Recall hilft dabei, die Fähigkeit eines KI-Modells zu messen, alle relevanten Instanzen oder "True Positives" innerhalb eines Datensatzes zu identifizieren. Einfach ausgedrückt, stellt er dar, wie gut ein KI-System alle tatsächlichen Fälle einer Bedingung oder eines Objekts erfassen kann, für deren Erkennung es entwickelt wurde. Der Recall kann berechnet werden, indem die Anzahl der korrekten Erkennungen durch die Gesamtzahl der positiven Fälle dividiert wird, die hätten erkannt werden müssen (er umfasst sowohl die Fälle, die das Modell korrekt identifiziert hat, als auch die, die es übersehen hat).

Betrachten Sie ein KI-gestütztes medizinisches Bildgebungssystem, das zur Krebserkennung eingesetzt wird. Der Recall spiegelt in diesem Zusammenhang den Prozentsatz der tatsächlichen Krebsfälle wider, die das System korrekt identifiziert. Ein hoher Recall ist in solchen Szenarien von entscheidender Bedeutung, da das Übersehen einer Krebsdiagnose schwerwiegende Folgen für die Patientenversorgung haben kann.

Präzision versus Treffsicherheit

Präzision und Treffsicherheit sind wie zwei Seiten derselben Medaille, wenn es um die Bewertung der Leistung eines KI-Modells geht, und sie erfordern oft ein Gleichgewicht. Die Herausforderung besteht darin, dass die Verbesserung der einen Metrik oft auf Kosten der anderen geht. 

Nehmen wir an, Sie streben eine höhere Präzision an. Das Modell kann selektiver werden und nur noch positive Ergebnisse identifizieren, bei denen es sich sehr sicher ist. Wenn Sie andererseits versuchen, die Trefferquote zu verbessern, kann das Modell mehr positive Ergebnisse identifizieren, was aber auch mehr falsch positive Ergebnisse einschließen und die Präzision verringern könnte. 

Entscheidend ist es, das richtige Gleichgewicht zwischen Präzision und Trefferrate zu finden, basierend auf den spezifischen Anforderungen Ihrer Anwendung. Ein nützliches Werkzeug hierfür ist die Precision-Recall-Kurve, die die Beziehung zwischen den beiden Metriken bei verschiedenen Schwellenwerten aufzeigt. Durch die Analyse dieser Kurve können Sie den optimalen Punkt bestimmen, an dem das Modell für Ihren spezifischen Anwendungsfall am besten funktioniert. Das Verständnis des Kompromisses hilft beim Feinabstimmen von KI-Modellen, um für ihre vorgesehenen Anwendungsfälle optimal zu funktionieren.

__wf_reserved_inherit
Abb. 3. Ein Beispiel für eine Precision-Recall-Kurve.

Mittlere durchschnittliche Präzision (mAP)

Die mittlere durchschnittliche Präzision (mAP) ist eine Metrik zur Bewertung der Leistung von KI-Modellen für Aufgaben wie die Objekterkennung, bei der das Modell mehrere Objekte innerhalb eines Bildes identifizieren und klassifizieren muss. mAP liefert Ihnen einen einzelnen Wert, der zeigt, wie gut das Modell über alle verschiedenen Kategorien hinweg funktioniert, für die es trainiert wurde. Sehen wir uns an, wie sie berechnet wird.

Die Fläche unter einer Precision-Recall-Kurve ergibt die Average Precision (AP) für diese Klasse. AP misst, wie genau das Modell Vorhersagen für eine bestimmte Klasse trifft, wobei sowohl Präzision als auch Recall über verschiedene Konfidenzniveaus hinweg berücksichtigt werden (Konfidenzniveaus beziehen sich darauf, wie sicher sich das Modell in seinen Vorhersagen ist). Sobald die AP für jede Klasse berechnet wurde, wird die mAP durch Mittelung dieser AP-Werte über alle Klassen hinweg bestimmt.

__wf_reserved_inherit
Abb. 4. Die durchschnittliche Präzision verschiedener Klassen.

mAP ist nützlich in Anwendungen wie autonomem Fahren, wo mehrere Objekte wie Fußgänger, Fahrzeuge und Verkehrszeichen gleichzeitig erkannt werden müssen. Ein hoher mAP-Wert bedeutet, dass das Modell in allen Kategorien konstant gute Leistungen erbringt, was es in einer Vielzahl von Szenarien zuverlässig und genau macht.

Leistungsmetriken mühelos berechnen

Die Formeln und Methoden zur Berechnung wichtiger KI-Leistungsmetriken können abschreckend wirken. Tools wie das Ultralytics-Paket können dies jedoch einfach und schnell gestalten. Egal, ob Sie an Objekterkennung-, Segmentierungs- oder Klassifizierungsaufgaben arbeiten, Ultralytics bietet die notwendigen Hilfsmittel, um schnell wichtige Metriken wie Präzision, Recall und Mean Average Precision (mAP) zu berechnen.

Um mit der Berechnung von Performance-Metriken mit Ultralytics zu beginnen, können Sie das Ultralytics-Paket wie unten gezeigt installieren.

In diesem Beispiel laden wir ein vorab trainiertes YOLOv8-Modell und verwenden es, um die Leistungsmetriken zu validieren. Sie können aber auch jedes der von Ultralytics bereitgestellten Modelle laden. So geht's:

Sobald das Modell geladen ist, können Sie eine Validierung auf Ihrem Datensatz durchführen. Der folgende Code-Schnipsel hilft Ihnen, verschiedene Leistungskennzahlen zu berechnen, darunter Präzision, Recall und mAP:

Die Verwendung von Tools wie Ultralytics erleichtert die Berechnung von Performance-Metriken erheblich, sodass Sie mehr Zeit mit der Verbesserung Ihres Modells verbringen können und sich weniger um die Details des Evaluierungsprozesses kümmern müssen.

Wie wird die KI-Leistung nach der Bereitstellung gemessen?

Bei der Entwicklung Ihres KI-Modells ist es einfach, seine Leistung in einer kontrollierten Umgebung zu testen. Sobald das Modell jedoch eingesetzt ist, können die Dinge komplizierter werden. Glücklicherweise gibt es Tools und Best Practices, die Ihnen helfen können, Ihre KI-Lösung nach der Bereitstellung zu überwachen

Tools wie Prometheus, Grafana und Evidently AI sind darauf ausgelegt, die Leistung Ihres Modells kontinuierlich zu überwachen. Sie können Echtzeit-Einblicke liefern, Anomalien erkennen und Sie auf potenzielle Probleme aufmerksam machen. Diese Tools gehen über die traditionelle Überwachung hinaus, indem sie automatisierte, skalierbare Lösungen anbieten, die sich an die dynamische Natur von KI-Modellen in der Produktion anpassen.

Um den Erfolg Ihres KI-Modells nach der Bereitstellung zu messen, sollten Sie die folgenden Best Practices beachten:

  • Legen Sie klare Leistungskennzahlen fest: Legen Sie wichtige Kennzahlen wie Genauigkeit, Präzision und Reaktionszeit fest, um regelmäßig zu überprüfen, wie gut Ihr Modell funktioniert.
  • Regelmäßige Überprüfung auf Data Drift: Achten Sie auf Veränderungen in den Daten, die Ihr Modell verarbeitet, da dies die Vorhersagen beeinträchtigen kann, wenn es nicht richtig gehandhabt wird.
  • A/B-Tests durchführen: Verwenden Sie A/B-Tests, um die Leistung Ihres aktuellen Modells mit neuen Versionen oder Optimierungen zu vergleichen. Dies ermöglicht es Ihnen, Verbesserungen oder Verschlechterungen im Modellverhalten quantitativ zu bewerten.
  • Leistung dokumentieren und prüfen: Führen Sie detaillierte Protokolle über Leistungskennzahlen und Änderungen an Ihrem KI-System. Dies ist entscheidend für Audits, Compliance und die Verbesserung der Architektur Ihres Modells im Laufe der Zeit.

Die Auswahl optimaler KI-KPIs ist nur der Anfang

Die erfolgreiche Bereitstellung und Verwaltung einer KI-Lösung hängt von der Auswahl der richtigen KPIs und deren Aktualisierung ab. Insgesamt ist die Wahl von Metriken, die hervorheben, wie gut die KI-Lösung technisch und in Bezug auf die geschäftlichen Auswirkungen funktioniert, von entscheidender Bedeutung. Da sich die Dinge ändern, sei es durch technologische Fortschritte oder Veränderungen in Ihrer Geschäftsstrategie, ist es wichtig, diese KPIs zu überprüfen und anzupassen. 

Indem Sie Ihre Leistungsüberprüfungen dynamisch gestalten, können Sie Ihr KI-System relevant und effektiv halten. Indem Sie diese Metriken stets im Blick behalten, erhalten Sie wertvolle Einblicke, die Ihnen helfen, Ihre Abläufe zu verbessern. Ein proaktiver Ansatz garantiert, dass Ihre KI-Bemühungen wirklich wertvoll sind und Ihr Unternehmen voranbringen!

Treten Sie unserer Community bei und entwickeln Sie mit uns Innovationen! Erkunden Sie unser GitHub-Repository, um unsere KI-Fortschritte zu sehen. Erfahren Sie, wie wir Branchen wie Fertigung und Gesundheitswesen mit bahnbrechender KI-Technologie neu gestalten. 🚀

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert