Mittlere durchschnittliche Präzision (mAP): Objekterkennung

Die Einführung von KI nimmt rasant zu, und KI wird in verschiedene Innovationen integriert, von selbstfahrenden Autos bis hin zu Einzelhandelssystemen, die Produkte in einem Regal identifizieren können. Diese Technologien basieren auf Computer Vision, einem Zweig der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu analysieren.

Eine wichtige Metrik zur Messung der Genauigkeit von Computer-Vision-Systemen und -Algorithmen ist die mittlere durchschnittliche Präzision (mean Average Precision, mAP). Die mAP-Metrik gibt an, wie genau die Vorhersage eines Vision-KI-Modells mit den Ergebnissen der realen Welt übereinstimmt.

Eine gängige Aufgabe in der Computer Vision ist die Objekterkennung, bei der ein Modell mehrere Objekte in einem Bild identifiziert und Bounding Boxes um sie herum zeichnet. mAP ist die Standardmetrik zur Bewertung der Leistung von Objekterkennungsmodellen und wird häufig verwendet, um Deep-Learning-Modelle wie Ultralytics YOLO11 zu vergleichen.

In diesem Artikel werden wir sehen, wie die mittlere durchschnittliche Präzision berechnet wird und warum sie für jeden, der Objekterkennungsmodelle trainiert oder bewertet, unerlässlich ist. Lass uns anfangen!

Was ist Mean Average Precision (mAP)?

Die mittlere durchschnittliche Präzision ist ein Wert, der zeigt, wie genau ein Deep-Learning-Modell bei Aufgaben im Zusammenhang mit dem Abruf visueller Informationen ist, wie z. B. das Erkennen und Identifizieren verschiedener Objekte in einem Bild. Betrachten Sie beispielsweise ein Objekterkennungsmodell, das ein Foto analysiert, das einen Hund, eine Katze und ein Auto enthält. Ein zuverlässiges Modell kann eine Objekterkennung durchführen, indem es jedes Objekt erkennt und Begrenzungsrahmen und Beschriftungen darum zeichnet, die hervorheben, wo es sich befindet und was es ist.

mAP gibt an, wie gut das Modell diese Aufgabe über viele Bilder und verschiedene Arten von Objekten hinweg erfüllt. Es prüft, ob das Modell jedes Objekt und seine Position innerhalb des Bildes genau identifiziert. Der Wert liegt zwischen 0 und 1, wobei 1 bedeutet, dass das Modell alles perfekt gefunden hat, und 0 bedeutet, dass es keine Objekte erkannt hat.

Wichtige Konzepte in Mean Average Precision (mAP)

Bevor wir die Konzepte hinter der mittleren durchschnittlichen Präzision (mean average precision) im maschinellen Lernen untersuchen, wollen wir zunächst zwei grundlegende Begriffe besser verstehen: Ground Truth und Vorhersagen.

Ground Truth bezeichnet die akkuraten Referenzdaten, bei denen Objekte und ihre Positionen im Bild sorgfältig von Menschen durch einen Prozess, der als Annotation bekannt ist, gekennzeichnet werden. Vorhersagen sind die Ergebnisse, die KI-Modelle nach der Analyse eines Bildes liefern. Durch den Vergleich der Vorhersagen des KI-Modells mit der Ground Truth können wir messen, wie nahe das Modell an die korrekten Ergebnisse herangekommen ist.

Abb. 1. Die Modellvorhersage und die Ground-Truth-Begrenzungsrahmen. Bild vom Autor.

‍

Konfusionsmatrix

Eine Konfusionsmatrix wird oft verwendet, um zu verstehen, wie präzise ein Objekterkennungsmodell ist. Es ist eine Tabelle, die zeigt, wie die Vorhersagen des Modells mit den tatsächlichen richtigen Antworten (Ground Truth) übereinstimmen. Aus dieser Tabelle können wir eine Aufschlüsselung von vier Schlüsselkomponenten oder Ergebnissen erhalten: True Positives, False Positives, False Negatives und True Negatives.

Hier ist die Bedeutung der einzelnen Komponenten in der Confusion Matrix:

True positive (TP): Ein Objekt und seine Position werden vom Modell korrekt erkannt.
‍
Falsch positiv (FP): Das Modell hat eine Erkennung vorgenommen, die jedoch falsch war.
‍
Falsch negativ (FN): Ein Objekt, das tatsächlich im Bild vorhanden war, aber vom Modell nicht erkannt wurde.
‍
True negative (TN): True Negatives treten auf, wenn das Modell das Fehlen eines Objekts korrekt identifiziert.

Echte Negativwerte werden bei der Objekterkennung nicht häufig verwendet, da wir die vielen leeren Bereiche in einem Bild normalerweise ignorieren. Sie sind jedoch bei anderen Computer-Vision-Aufgaben unerlässlich, z. B. bei der Bildklassifizierung, bei der das Modell dem Bild eine Bezeichnung zuweist. Wenn die Aufgabe beispielsweise darin besteht, zu erkennen, ob ein Bild eine Katze enthält oder nicht, und das Modell korrekt "keine Katze" erkennt, wenn das Bild keine enthält, ist dies ein echter Negativwert.

Abb. 2. Klassifizierungsergebnisse in einer Konfusionsmatrix. Bild vom Autor.

‍

Intersection over Union (IoU)

Eine weitere wichtige Metrik zur Bewertung von Objekterkennungsmodellen ist die Intersection over Union (IoU). Bei solchen Vision-AI-Modellen reicht es nicht aus, lediglich die Anwesenheit eines Objekts in einem Bild zu erkennen; es muss auch dessen Position im Bild lokalisiert werden, um Begrenzungsrahmen (Bounding Boxes) zu zeichnen.

Die IoU-Metrik misst, wie genau die vom Modell vorhergesagte Box mit der tatsächlichen, korrekten Box (Ground Truth) übereinstimmt. Der Score liegt zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung und 0 keine Überlappung bedeutet.

Zum Beispiel bedeutet ein höherer IoU (wie 0,80 oder 0,85), dass die vorhergesagte Box gut mit der Ground-Truth-Box übereinstimmt, was auf eine genaue Lokalisierung hindeutet. Ein niedrigerer IoU (wie 0,30 oder 0,25) bedeutet, dass das Modell das Objekt nicht genau lokalisiert hat.

Um festzustellen, ob eine Erkennung erfolgreich ist, verwenden wir verschiedene Schwellenwerte. Ein gängiger IoU-Schwellenwert ist 0,5, was bedeutet, dass sich ein vorhergesagtes Feld um mindestens 50 % mit dem Ground-Truth-Feld überlappen muss, um als "True Positive" zu gelten. Jede Überlappung unterhalb dieses Schwellenwerts wird als "False Positive" betrachtet.

Abb. 3. Intersection over Union verstehen. Bild vom Autor.

‍

Präzision und Trefferrate

Bisher haben wir einige grundlegende Evaluationsmetriken zum Verständnis der Leistung von Objektdetektionsmodellen untersucht. Darauf aufbauend sind Präzision und Rückruf (Recall) zwei der wichtigsten Metriken. Sie geben uns ein klares Bild davon, wie genau die Erkennungen des Modells sind. Sehen wir uns an, was sie sind.

Präzisionswerte geben uns Auskunft darüber, wie viele der Vorhersagen des Modells tatsächlich korrekt waren. Sie beantwortet die Frage: Wie viele der Objekte, die das Modell angeblich erkannt hat, waren tatsächlich vorhanden?

Recall-Werte messen hingegen, wie gut das Modell alle tatsächlich im Bild vorhandenen Objekte findet. Sie beantworten die Frage: Wie viele der tatsächlich vorhandenen Objekte hat das Modell korrekt erkannt?

Zusammen geben uns Precision und Recall ein klareres Bild davon, wie gut ein Modell funktioniert. Wenn ein Modell beispielsweise 10 Autos in einem Bild vorhersagt und 9 davon tatsächlich Autos sind, hat es eine Precision von 90 % (eine positive Vorhersage).

Bei diesen beiden Evaluationsmetriken gibt es oft einen Kompromiss: Ein Modell kann einen hohen Präzisionswert erzielen, indem es nur Vorhersagen trifft, in die es vollstes Vertrauen hat, aber dies kann dazu führen, dass es viele Objekte übersieht, was den Recall-Wert senkt. Gleichzeitig kann es einen sehr hohen Recall-Wert erreichen, indem es fast überall eine Bounding Box vorhersagt, was jedoch die Präzision verringern würde.

Abb. 4. Präzision und Rückruf. Bild vom Autor.

‍

Durchschnittliche Präzision

Während Precision und Recall uns helfen zu verstehen, wie ein Modell bei einzelnen Vorhersagen funktioniert, kann Average Precision (AP) einen breiteren Überblick geben. Es veranschaulicht, wie sich die Präzision des Modells ändert, wenn es versucht, mehr Objekte zu erkennen, und fasst seine Leistung in einer einzigen Zahl zusammen.

Um den durchschnittlichen Präzisionswert zu berechnen, können wir zunächst eine kombinierte, graphähnliche Metrik erstellen, die als Precision-Recall-Kurve (oder PR-Kurve) für jeden Objekttyp bezeichnet wird. Diese Kurve zeigt, was passiert, wenn das Modell mehr Vorhersagen trifft.

Stellen Sie sich ein Szenario vor, in dem das Modell zunächst nur die einfachsten oder offensichtlichsten Objekte erkennt. In dieser Phase ist die Präzision hoch, da die meisten Vorhersagen korrekt sind, aber die Trefferquote ist niedrig, da viele Objekte noch übersehen werden. Wenn das Modell versucht, mehr Objekte zu erkennen, einschließlich der schwierigeren oder selteneren, führt dies in der Regel zu mehr Fehlern. Dies führt dazu, dass die Präzision sinkt, während die Trefferquote steigt.

Die durchschnittliche Präzision ist die Fläche unter der Kurve (AUC der PR-Kurve). Eine größere Fläche bedeutet, dass das Modell seine Vorhersagen genauer halten kann, auch wenn es mehr Objekte erkennt. AP wird für jede Klassenbezeichnung separat berechnet.

Beispielsweise können wir in einem Modell, das Autos, Fahrräder und Fußgänger erkennen kann, die AP-Werte für jede dieser drei Kategorien einzeln berechnen. Dies hilft uns zu erkennen, welche Objekte das Modell gut erkennt und wo es möglicherweise noch verbessert werden muss.

Abb. 5. Eine PR-Kurve für fünf verschiedene Klassen. (Quelle)

‍

Mittlere durchschnittliche Präzision

Nach der Berechnung der durchschnittlichen Präzision für jede Objektklasse benötigen wir noch eine einzige Kennzahl, die die Gesamtleistung des Modells über alle Klassen hinweg widerspiegelt. Dies kann mit der Formel für die mittlere durchschnittliche Präzision erreicht werden. Sie mittelt die AP-Werte für jede Kategorie.

Nehmen wir beispielsweise an, ein Computer Vision Modell wie YOLO11 erreicht eine AP von 0,827 für Autos, 0,679 für Motorräder, 0,355 für LKWs, 0,863 für Busse und 0,982 für Fahrräder. Mit der mAP-Formel können wir diese Zahlen addieren und durch die Gesamtzahl der Klassen wie folgt dividieren:

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

‍

Der mAP-Score von 0,743 bietet eine einfache Lösung, um zu beurteilen, wie gut das Modell über alle Objektklassen hinweg funktioniert. Ein Wert nahe 1 bedeutet, dass das Modell für die meisten Kategorien genau ist, während ein niedrigerer Wert darauf hindeutet, dass es mit einigen Schwierigkeiten hat.

Bedeutung von AP und mAP in der Computer Vision

Nachdem wir nun ein besseres Verständnis davon haben, wie AP und mAP berechnet werden und was ihre Bestandteile sind, geben wir hier einen Überblick über ihre Bedeutung in der Computer Vision:

Niedriger AP-Wert für eine bestimmte Klasse: Ein niedriger AP-Wert für eine einzelne Klasse bedeutet oft, dass das Modell mit dieser spezifischen Objektklasse zu kämpfen hat. Dies kann auf unzureichende Trainingsdaten oder visuelle Herausforderungen in den Bildern, wie z. B. Verdeckung, zurückzuführen sein.

Lokalisierungsfehler: Ein höherer mAP-Wert bei einem niedrigeren IoU-Schwellenwert (wie z. B. mAP@0.50) in Kombination mit einem deutlichen Rückgang bei einem höheren IoU-Schwellenwert (wie z. B. mAP@0.75) deutet darauf hin, dass das Modell Objekte zwar erkennen kann, aber Schwierigkeiten hat, sie präzise zu lokalisieren.

Overfitting: Ein höherer mAP-Wert im Trainingsdatensatz, aber ein niedrigerer mAP-Wert im Validierungsdatensatz ist ein Zeichen für Overfitting, wodurch das Modell für neue Bilder unzuverlässig wird.

Anwendungen der mittleren durchschnittlichen Präzision in der realen Welt

Als Nächstes wollen wir untersuchen, wie wichtige Metriken wie mAP beim Aufbau von realen Computer-Vision-Anwendungsfällen helfen können.

Autonome Fahrzeuge: Warum ein höherer mAP-Wert sicherere Straßen bedeutet

Wenn es um selbstfahrende Autos geht, ist die Objekterkennung entscheidend, um Fußgänger, Straßenschilder, Radfahrer und Fahrbahnmarkierungen zu identifizieren. Wenn beispielsweise ein Kind plötzlich über die Straße läuft, hat das Auto nur wenige Sekunden Zeit, um das Objekt (Kind) zu erkennen, seinen Standort zu bestimmen, seine Bewegung zu verfolgen und die notwendigen Maßnahmen zu ergreifen (Bremsen).

Modelle wie YOLO11 sind für die Echtzeit-Objekterkennung in solch risikoreichen Szenarien konzipiert. In diesen Fällen wird mAP zu einem kritischen Sicherheitsmaß.

Ein hoher mAP-Wert stellt sicher, dass das System das Kind schnell erkennt, es präzise lokalisiert und das Bremsen mit minimaler Verzögerung auslöst. Ein niedriger mAP-Wert kann zu verpassten Erkennungen oder gefährlichen Fehlklassifizierungen führen, z. B. wenn das Kind mit einem anderen kleinen Objekt verwechselt wird.

Abb. 6. Ein Beispiel für die Verwendung von YOLO11 zur Erkennung von Fußgängern auf der Straße. (Quelle)

‍

Verwendung von mAP für eine genaue Produktdetektion

Auch im Einzelhandel können Objekterkennungsmodelle zur Automatisierung von Aufgaben wie Bestandsüberwachung und Kassiervorgängen eingesetzt werden. Wenn ein Kunde ein Produkt an einer Selbstbedienungskasse scannt, kann ein Fehler bei der Erkennung zu Frustration führen.

Ein hoher mAP-Wert stellt sicher, dass das Modell ähnliche Produkte genau unterscheidet und präzise Begrenzungsrahmen zeichnet, selbst wenn Artikel dicht gepackt sind. Ein niedriger mAP-Wert kann zu Verwechslungen führen. Wenn das Modell beispielsweise eine Orangensaftflasche mit einer optisch ähnlichen Apfelsaftflasche verwechselt, könnte dies zu falschen Abrechnungen und ungenauen Lagerbestandsberichten führen.

In den Einzelhandel integrierte Systeme mit Modellen wie YOLO11 können Produkte in Echtzeit erkennen, sie mit dem Inventar abgleichen und Backend-Systeme sofort aktualisieren. In schnelllebigen Einzelhandelsumgebungen spielt mAP eine entscheidende Rolle, um den Betrieb genau und zuverlässig zu gestalten.

Verbesserung der diagnostischen Genauigkeit mit hohem mAP im Gesundheitswesen

Die Verbesserung der diagnostischen Genauigkeit im Gesundheitswesen beginnt mit einer präzisen Erkennung in der medizinischen Bildgebung. Modelle wie YOLO11 können Radiologen helfen, Tumore, Frakturen oder andere Anomalien in medizinischen Scans zu erkennen. Hier ist die mittlere durchschnittliche Präzision (mean Average Precision, mAP) eine wesentliche Metrik zur Bewertung der klinischen Zuverlässigkeit eines Modells.

Ein hoher mAP-Wert deutet darauf hin, dass das Modell sowohl eine hohe Trefferquote (Identifizierung der meisten tatsächlichen Probleme) als auch eine hohe Präzision (Vermeidung von Fehlalarmen) erreicht, was in der klinischen Entscheidungsfindung von entscheidender Bedeutung ist. Auch der IoU-Schwellenwert im Gesundheitswesen wird oft sehr hoch (0,85 oder 0,90) angesetzt, um eine extrem genaue Erkennung zu gewährleisten.

Ein niedriger mAP-Wert kann jedoch Anlass zur Sorge geben. Nehmen wir an, ein Modell übersieht einen Tumor; dies könnte die Diagnose verzögern oder zu einer falschen Behandlung führen.

Vor- und Nachteile der Verwendung von mAP

Hier sind die wichtigsten Vorteile der Verwendung von Mean Average Precision zur Bewertung von Objekterkennungsmodellen:

Standardisierte Metrik: mAP ist der Industriestandard für die Bewertung von Objekterkennungsmodellen. Ein mAP-Wert ermöglicht faire und konsistente Vergleiche zwischen verschiedenen Modellen.

Spiegelt die Leistung in der realen Welt wider: Ein hoher mAP-Wert deutet darauf hin, dass sich das Modell bei der Erkennung verschiedener Objektklassen auszeichnet und in komplexen, realen Szenarien eine hohe Leistung erbringt.

Klassenweise Diagnose: Ein mAP-Score bewertet die Erkennungsleistung für jede Klasse einzeln. Dies erleichtert die Identifizierung von leistungsschwachen Kategorien (wie Fahrräder oder Straßenschilder) und die entsprechende Feinabstimmung des Modells.

Obwohl die mAP-Metrik viele Vorteile bietet, gibt es einige Einschränkungen zu berücksichtigen. Hier sind einige Faktoren, die Sie berücksichtigen sollten:

Schwierig für nicht-technische Stakeholder: Geschäfts- oder klinische Teams finden mAP-Werte möglicherweise abstrakt, im Gegensatz zu intuitiveren und leicht verständlichen Metriken.

Berücksichtigt keine Echtzeitbeschränkungen: mAP berücksichtigt weder die Inferenzgeschwindigkeit noch die Latenz, die für den Einsatz in zeitkritischen Anwendungen entscheidend sind.

Wesentliche Erkenntnisse

Wir haben festgestellt, dass die mittlere durchschnittliche Präzision nicht nur ein technischer Wert ist, sondern auch das Potenzial der realen Leistung eines Modells widerspiegelt. Ob in einem autonomen Fahrzeugsystem oder an einer Einzelhandelskasse, ein hoher mAP-Wert dient als zuverlässiger Indikator für die Leistung und die praktische Einsatzbereitschaft eines Modells.

Obwohl mAP eine wesentliche und wirkungsvolle Metrik ist, sollte sie als Teil einer umfassenden Evaluierungsstrategie betrachtet werden. Für kritische Anwendungen wie das Gesundheitswesen und das autonome Fahren reicht es nicht aus, sich ausschließlich auf mAP zu verlassen.

Zusätzliche Faktoren wie Inferenzgeschwindigkeit (wie schnell das Modell Vorhersagen trifft), Modellgröße (die sich auf den Einsatz auf Edge-Geräten auswirkt) und qualitative Fehleranalyse (das Verständnis der Arten von Fehlern, die das Modell macht) müssen ebenfalls berücksichtigt werden, um sicherzustellen, dass das System sicher, effizient und wirklich für seinen vorgesehenen Zweck geeignet ist.

Treten Sie unserer wachsenden Community und unserem GitHub-Repository bei, um mehr über Computer Vision zu erfahren. Auf unseren Lösungsseiten erfahren Sie mehr über Anwendungen von Computer Vision in der Landwirtschaft und KI in der Logistik. Informieren Sie sich über unsere Lizenzoptionen, um noch heute mit Ihrem eigenen Computer-Vision-Modell zu beginnen!

Mittlere durchschnittliche Präzision (mAP) bei der Objekterkennung

Was ist Mean Average Precision (mAP)?