Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Cookie-Einstellungen
Wenn Sie auf "Alle Cookies akzeptieren" klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Navigation auf der Website zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Mehr Infos
Verstehen Sie die mittlere durchschnittliche Genauigkeit (mAP) bei der Objekterkennung. Lernen Sie seine Bedeutung und Berechnung kennen und erfahren Sie, warum mAP der Schlüssel zur Bewertung der Modellleistung ist.
Der Einsatz von KI nimmt rasch zu, und KI wird in verschiedene Innovationen integriert, von selbstfahrenden Autos bis hin zu Einzelhandelssystemen, die Produkte in einem Regal identifizieren können. Diese Technologien beruhen auf Computer Vision, einem Zweig der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu analysieren.
Ein wichtiger Bewertungsmaßstab zur Messung der Genauigkeit von Bildverarbeitungssystemen und -algorithmen ist die durchschnittliche Genauigkeit (mAP). Die mAP-Kennzahl gibt an, wie genau die Vorhersage eines Bildverarbeitungsmodells mit realen Ergebnissen übereinstimmt.
Eine häufige Aufgabe der Computer Vision ist die Objekterkennung, bei der ein Modell mehrere Objekte in einem Bild identifiziert und Bounding Boxes um sie herum zeichnet. mAP ist die Standardmetrik zur Bewertung der Leistung von Objekterkennungsmodellen und wird häufig zum Benchmarking von Deep Learning-Modellen wie Ultralytics YOLO11 verwendet.
In diesem Artikel werden wir sehen, wie die durchschnittliche Genauigkeit berechnet wird und warum sie für jeden, der Modelle zur Objekterkennung trainiert oder evaluiert, von wesentlicher Bedeutung ist. Legen wir los!
Was ist die durchschnittliche Genauigkeit (mAP)?
Die durchschnittliche Genauigkeit ist ein Wert, der zeigt, wie genau ein Deep-Learning-Modell bei Aufgaben im Zusammenhang mit dem Abrufen visueller Informationen ist, wie dem Erkennen und Identifizieren verschiedener Objekte in einem Bild. Nehmen wir zum Beispiel ein Objekterkennungsmodell, das ein Foto analysiert, das einen Hund, eine Katze und ein Auto enthält. Ein zuverlässiges Modell kann die Objekterkennung durchführen, indem es jedes Objekt erkennt und Begrenzungsrahmen und Beschriftungen um das Objekt herum zeichnet, um hervorzuheben, wo es sich befindet und was es ist.
mAP gibt an, wie gut das Modell diese Aufgabe über viele Bilder und verschiedene Arten von Objekten hinweg erfüllt. Es wird geprüft, ob das Modell jedes Objekt und seine Position innerhalb des Bildes genau identifiziert. Der Wert reicht von 0 bis 1, wobei 1 bedeutet, dass das Modell alles perfekt gefunden hat, und 0 bedeutet, dass es keine Objekte erkannt hat.
Schlüsselkonzepte der mittleren durchschnittlichen Genauigkeit (mAP)
Bevor wir uns mit den Konzepten hinter der durchschnittlichen Genauigkeit beim maschinellen Lernen beschäftigen, sollten wir zwei grundlegende Begriffe besser verstehen: Grundwahrheit und Vorhersagen.
Die Grundwahrheit bezieht sich auf die genauen Referenzdaten, bei denen die Objekte und ihre Positionen im Bild sorgfältig von Menschen durch einen Prozess, der als Annotation bekannt ist, beschriftet werden. Die Vorhersagen sind die Ergebnisse, die KI-Modelle nach der Analyse eines Bildes liefern. Durch den Vergleich der Vorhersagen des KI-Modells mit der Basiswahrheit können wir messen, wie nahe das Modell den richtigen Ergebnissen kommt.
Abb. 1. Die Vorhersage des Modells und die Begrenzungsboxen der Bodenwahrheit. Bild vom Autor.
Verwirrungsmatrix
Eine Konfusionsmatrix wird häufig verwendet, um zu verstehen, wie genau ein Objekterkennungsmodell ist. Es handelt sich um eine Tabelle, die zeigt, wie die Vorhersagen des Modells mit den tatsächlich richtigen Antworten (Ground Truth) übereinstimmen. Anhand dieser Tabelle können wir eine Aufschlüsselung der vier Hauptkomponenten oder Ergebnisse vornehmen: wahr-positive, falsch-positive, falsch-negative und wahr-negative Ergebnisse.
Diese Komponenten werden in der Konfusionsmatrix wie folgt dargestellt:
Wahr positiv (TP): Ein Objekt und sein Standort werden vom Modell korrekt erkannt.
Falsch positiv (FP): Das Modell hat eine Erkennung durchgeführt, die jedoch falsch war.
Falsches Negativ (FN): Ein Objekt, das tatsächlich im Bild vorhanden war, aber das Modell konnte es nicht erkennen.
Wahres Negativ (TN): Echte Negative treten auf, wenn das Modell das Fehlen eines Objekts richtig erkennt.
Echte Negative werden bei der Objekterkennung in der Regel nicht verwendet, da wir die vielen leeren Bereiche in einem Bild normalerweise ignorieren. Bei anderen Bildverarbeitungsaufgaben, wie z. B. der Bildklassifizierung, bei der das Modell dem Bild eine Bezeichnung zuweist, ist es jedoch unerlässlich. Wenn die Aufgabe zum Beispiel darin besteht, zu erkennen, ob ein Bild eine Katze enthält oder nicht, und das Modell korrekt "keine Katze" identifiziert, wenn das Bild keine Katze enthält, ist das ein echtes Negativ.
Abb. 2. Ergebnisse der Klassifizierung in einer Konfusionsmatrix. Bild vom Autor.
Kreuzung über Union (IoU)
Eine weitere wichtige Metrik bei der Bewertung von Objekterkennungsmodellen ist Intersection over Union (IoU). Für solche Vision AI-Modelle reicht es nicht aus, einfach nur das Vorhandensein eines Objekts in einem Bild zu erkennen; sie müssen auch feststellen, wo sich das Objekt im Bild befindet, um Begrenzungsrahmen zu zeichnen.
Die IoU-Metrik misst, wie gut die vom Modell vorhergesagte Box mit der tatsächlichen, korrekten Box (Ground Truth) übereinstimmt. Der Wert liegt zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung und 0 keinerlei Überschneidung bedeutet.
Ein höherer IoU-Wert (z. B. 0,80 oder 0,85) bedeutet, dass das vorhergesagte Feld sehr gut mit dem Feld der Bodenwahrheit übereinstimmt, was auf eine genaue Lokalisierung hinweist. Ein niedriger IoU (wie 0,30 oder 0,25) bedeutet, dass das Modell das Objekt nicht genau lokalisiert hat.
Um festzustellen, ob eine Erkennung erfolgreich ist, verwenden wir verschiedene Schwellenwerte. Ein gängiger IoU-Schwellenwert liegt bei 0,5, d. h. ein vorhergesagtes Feld muss sich zu mindestens 50 % mit dem echten Feld überschneiden, um als wahrer Positivwert zu gelten. Jede Überlappung unterhalb dieses Schwellenwerts wird als falsch positiv betrachtet.
Abb. 3. Verstehen von Intersection over Union. Bild vom Autor.
Präzision und Wiedererkennung
Bisher haben wir uns mit einigen grundlegenden Bewertungsmetriken für das Verständnis der Leistung von Objekterkennungsmodellen beschäftigt. Darauf aufbauend sind zwei der wichtigsten Metriken Präzision und Recall. Sie vermitteln uns ein klares Bild davon, wie genau die Erkennungen des Modells sind. Werfen wir einen Blick darauf, was das ist.
Präzisionswerte sagen uns, wie viele der Vorhersagen des Modells tatsächlich richtig waren. Sie beantworten die Frage: Wie viele der Objekte, die das Modell zu erkennen vorgab, waren tatsächlich vorhanden?
Recall-Werte hingegen messen, wie gut das Modell alle tatsächlich im Bild vorhandenen Objekte findet. Er beantwortet die Frage: Wie viele der tatsächlich vorhandenen Objekte hat das Modell richtig erkannt?
Präzision und Recall geben uns ein klareres Bild davon, wie gut ein Modell funktioniert. Wenn ein Modell zum Beispiel 10 Autos in einem Bild vorhersagt und 9 davon tatsächlich Autos sind, hat es eine Genauigkeit von 90 % (eine positive Vorhersage).
Diese beiden Bewertungsmaßstäbe sind oft mit einem Kompromiss verbunden: Ein Modell kann einen hohen Präzisionswert erreichen, indem es nur Vorhersagen macht, denen es voll und ganz vertraut, aber das kann dazu führen, dass es viele Objekte übersieht, was den Recall-Wert senkt. Andererseits kann es auch einen sehr hohen Recall-Wert erreichen, indem es fast überall eine Bounding Box vorhersagt, was jedoch die Präzision verringern würde.
Abb. 4. Präzision und Wiedererkennung. Bild vom Autor.
Durchschnittliche Genauigkeit
Während Präzision und Recall uns helfen zu verstehen, wie ein Modell bei einzelnen Vorhersagen abschneidet, kann die durchschnittliche Präzision (AP) einen umfassenderen Überblick geben. Sie veranschaulicht, wie sich die Genauigkeit des Modells ändert, wenn es versucht, mehr Objekte zu erkennen, und fasst seine Leistung in einer einzigen Zahl zusammen.
Um den durchschnittlichen Präzisionswert zu berechnen, können wir zunächst eine kombinierte grafische Metrik erstellen, die als Präzisions-Rückruf-Kurve (oder PR-Kurve) für jede Art von Objekt bezeichnet wird. Diese Kurve zeigt, was passiert, wenn das Modell mehr Vorhersagen macht.
Betrachten wir ein Szenario, bei dem das Modell zunächst nur die einfachsten oder offensichtlichsten Objekte erkennt. In diesem Stadium ist die Genauigkeit hoch, da die meisten Vorhersagen richtig sind, aber die Wiedererkennung ist niedrig, da immer noch viele Objekte übersehen werden. Wenn das Modell versucht, mehr Objekte zu erkennen, einschließlich der schwierigeren oder selteneren, treten in der Regel mehr Fehler auf. Dies führt dazu, dass die Genauigkeit sinkt, während die Rückrufquote steigt.
Die durchschnittliche Genauigkeit ist die Fläche unter der Kurve (AUC der PR-Kurve). Eine größere Fläche bedeutet, dass das Modell seine Vorhersagen besser trifft, auch wenn es mehr Objekte erkennt. Die AP wird für jedes Klassenlabel separat berechnet.
Bei einem Modell, das beispielsweise Autos, Fahrräder und Fußgänger erkennen kann, können wir die AP-Werte für jede dieser drei Kategorien einzeln berechnen. Auf diese Weise können wir erkennen, welche Objekte das Modell gut erkennt und wo es möglicherweise noch verbessert werden muss.
Abb. 5. Eine PR-Kurve für fünf verschiedene Klassen.(Quelle)
Mittlere durchschnittliche Genauigkeit
Nach der Berechnung der durchschnittlichen Genauigkeit für jede Objektklasse benötigen wir noch eine einzige Punktzahl, die die Gesamtleistung des Modells für alle Klassen widerspiegelt. Dies kann mit der Formel für die durchschnittliche Genauigkeit erreicht werden. Sie bildet den Durchschnitt der AP-Scores für jede Kategorie.
Nehmen wir zum Beispiel an, dass ein Computer-Vision-Modell wie YOLO11 einen AP von 0,827 für Autos, 0,679 für Motorräder, 0,355 für Lastwagen, 0,863 für Busse und 0,982 für Fahrräder erreicht. Mit Hilfe der mAP-Formel können wir diese Zahlen addieren und durch die Gesamtzahl der Klassen wie folgt dividieren:
Die mAP-Punktzahl von 0,743 bietet eine einfache Lösung, um zu beurteilen, wie gut das Modell über alle Objektklassen hinweg funktioniert. Ein Wert nahe bei 1 bedeutet, dass das Modell für die meisten Kategorien genau ist, während ein niedrigerer Wert darauf hindeutet, dass es bei einigen Schwierigkeiten hat.
Bedeutung von AP und mAP in der Computer Vision
Nachdem wir nun besser verstanden haben, wie AP und mAP berechnet werden und aus welchen Komponenten sie bestehen, geben wir hier einen Überblick über ihre Bedeutung für die Computer Vision:
Niedrige AP für eine bestimmte Klasse: Ein niedriger AP für eine einzelne Klasse bedeutet oft, dass das Modell Schwierigkeiten mit dieser speziellen Objektklasse hat. Dies kann auf unzureichende Trainingsdaten oder visuelle Herausforderungen in den Bildern, wie Verdeckung, zurückzuführen sein.
Lokalisierungsfehler: Ein höherer mAP-Wert bei einem niedrigeren IoU-Schwellenwert (z. B. mAP@0.50) in Kombination mit einem deutlichen Abfall bei einem höheren IoU-Schwellenwert (z. B. mAP@0.75) deutet darauf hin, dass das Modell zwar Objekte erkennen kann, aber Schwierigkeiten hat, sie genau zu lokalisieren.
Überanpassung: Ein höherer mAP-Wert im Trainingsdatensatz, aber ein niedrigerer mAP-Wert im Validierungsdatensatz ist ein Zeichen für eine Überanpassung, die das Modell für neue Bilder unzuverlässig macht.
Praktische Anwendungen der durchschnittlichen Genauigkeit
Als Nächstes wollen wir untersuchen, wie Schlüsselmetriken wie mAP bei der Entwicklung von realen Anwendungsfällen der Computer Vision helfen können.
Autonome Fahrzeuge: Warum ein höherer mAP-Wert sicherere Straßen bedeutet
Bei selbstfahrenden Autos ist die Objekterkennung entscheidend für die Erkennung von Fußgängern, Straßenschildern, Radfahrern und Fahrbahnmarkierungen. Wenn beispielsweise ein Kind plötzlich über die Straße läuft, hat das Auto Sekunden Zeit, um das Objekt (das Kind) zu erkennen, zu lokalisieren, seine Bewegung zu verfolgen und die notwendigen Maßnahmen zu ergreifen (Bremsen).
Modelle wie YOLO11 sind für die Erkennung von Objekten in Echtzeit in solchen hochsensiblen Szenarien konzipiert. In diesen Fällen wird mAP zu einem entscheidenden Sicherheitsmaßstab.
Ein hoher mAP-Wert stellt sicher, dass das System das Kind schnell erkennt, es genau lokalisiert und mit minimaler Verzögerung eine Bremsung auslöst. Ein niedriger mAP-Wert kann dazu führen, dass das Kind nicht erkannt wird oder gefährliche Fehlklassifizierungen vorgenommen werden, z. B. die Verwechslung des Kindes mit einem anderen kleinen Objekt.
Abb. 6. Ein Beispiel für den Einsatz von YOLO11 zur Erkennung von Fußgängern auf der Straße.(Quelle)
Verwendung von mAP für eine genaue Produkterkennung
In ähnlicher Weise können im Einzelhandel Modelle zur Objekterkennung zur Automatisierung von Aufgaben wie Bestandsüberwachung und Kassiervorgängen eingesetzt werden. Wenn ein Kunde ein Produkt an einer Selbstbedienungskasse einscannt, kann ein Fehler bei der Erkennung zu Frustration führen.
Ein hoher mAP-Wert stellt sicher, dass das Modell ähnliche Produkte genau unterscheidet und präzise Bounding Boxes zeichnet, selbst wenn die Artikel dicht gepackt sind. Ein niedriger mAP-Wert kann zu Verwechslungen führen. Wenn das Modell zum Beispiel eine Orangensaftflasche mit einer optisch ähnlichen Apfelsaftflasche verwechselt, kann dies zu einer falschen Rechnungsstellung und ungenauen Bestandsberichten führen.
Einzelhandelssysteme, die mit Modellen wie YOLO11 integriert sind, können Produkte in Echtzeit erkennen, sie mit dem Bestand abgleichen und Backend-Systeme sofort aktualisieren. In schnelllebigen Einzelhandelsumgebungen spielt mAP eine entscheidende Rolle für die Genauigkeit und Zuverlässigkeit der Abläufe.
Verbesserung der diagnostischen Genauigkeit mit hohem mAP im Gesundheitswesen
Die Verbesserung der Diagnosegenauigkeit im Gesundheitswesen beginnt mit der präzisen Erkennung in der medizinischen Bildgebung. Modelle wie YOLO11 können Radiologen dabei helfen, Tumore, Frakturen oder andere Anomalien auf diesen medizinischen Scans zu erkennen. In diesem Fall ist die durchschnittliche Genauigkeit eine wichtige Kennzahl für die Bewertung der klinischen Zuverlässigkeit eines Modells.
Ein hoher mAP-Wert zeigt an, dass das Modell sowohl eine hohe Trefferquote (Identifizierung der meisten tatsächlichen Probleme) als auch eine hohe Präzision (Vermeidung von Fehlalarmen) erreicht, was für die klinische Entscheidungsfindung entscheidend ist. Außerdem wird der IoU-Schwellenwert im Gesundheitswesen oft sehr hoch angesetzt (0,85 oder 0,90), um eine extrem genaue Erkennung zu gewährleisten.
Ein niedriger mAP-Wert kann jedoch Anlass zur Sorge geben. Nehmen wir an, ein Modell übersieht einen Tumor; das könnte die Diagnose verzögern oder zu einer falschen Behandlung führen.
Vor- und Nachteile der Verwendung von mAP
Hier sind die wichtigsten Vorteile der Verwendung der mittleren durchschnittlichen Genauigkeit zur Bewertung von Objekterkennungsmodellen:
Standardisierte Metrik: mAP ist der Industriestandard für die Bewertung von Objekterkennungsmodellen. Ein mAP-Wert ermöglicht faire und konsistente Vergleiche zwischen verschiedenen Modellen.
Spiegelt die Leistung in der Praxis wider: Ein hoher mAP-Wert zeigt an, dass das Modell bei der Erkennung verschiedener Objektklassen hervorragend abschneidet und auch in komplexen, realen Szenarien eine gute Leistung erbringt.
Klassenweise Diagnose: Ein mAP-Score bewertet die Erkennungsleistung für jede Klasse einzeln. Dies erleichtert die Identifizierung leistungsschwacher Kategorien (wie Fahrräder oder Straßenschilder) und die entsprechende Feinabstimmung des Modells.
Die Verwendung der mAP-Metrik bietet zwar zahlreiche Vorteile, aber es gibt auch einige Einschränkungen zu beachten. Hier sind einige Faktoren, die zu berücksichtigen sind:
Schwierig für nicht-technische Interessengruppen: Geschäfts- oder Klinikteams empfinden mAP-Werte möglicherweise als abstrakt, im Gegensatz zu intuitiveren und leichter verständlichen Metriken.
Keine Berücksichtigung von Echtzeit-Zwängen: mAP berücksichtigt weder die Inferenzgeschwindigkeit noch die Latenzzeit, die für den Einsatz in zeitkritischen Anwendungen entscheidend sind.
Die wichtigsten Erkenntnisse
Wir haben gesehen, dass die durchschnittliche Genauigkeit nicht nur ein technischer Wert ist, sondern auch die potenzielle Leistung eines Modells in der Praxis widerspiegelt. Ob in einem autonomen Fahrzeugsystem oder an einer Einzelhandelskasse, eine hohe mAP-Punktzahl ist ein zuverlässiger Indikator für die Leistung und Praxistauglichkeit eines Modells.
Obwohl mAP eine wichtige und aussagekräftige Kennzahl ist, sollte sie als Teil einer abgerundeten Bewertungsstrategie betrachtet werden. Für kritische Anwendungen wie das Gesundheitswesen und autonomes Fahren reicht es nicht aus, sich nur auf mAP zu verlassen.
Weitere Faktoren wie die Geschwindigkeit der Schlussfolgerungen (wie schnell das Modell Vorhersagen trifft), die Modellgröße (Auswirkungen auf die Bereitstellung auf Edge-Geräten) und die qualitative Fehleranalyse (Verständnis der Arten von Fehlern, die das Modell macht) müssen ebenfalls berücksichtigt werden, um sicherzustellen, dass das System sicher, effizient und wirklich für den beabsichtigten Zweck geeignet ist.