Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Mittlere durchschnittliche GenauigkeitmAP) bei der Objekterkennung

Abirami Vina

6 Minuten Lesezeit

28. August 2025

Verstehen Sie die mittlere durchschnittliche GenauigkeitmAP) bei der Objekterkennung. Lernen Sie seine Bedeutung und Berechnung kennen und erfahren Sie, warum mAP der Schlüssel zur Bewertung der Modellleistung ist.

Die Einführung von KI nimmt rasant zu, und KI wird in verschiedene Innovationen integriert, von selbstfahrenden Autos bis hin zu Einzelhandelssystemen, die Produkte in einem Regal identifizieren können. Diese Technologien basieren auf Computer Vision, einem Zweig der künstlichen Intelligenz (KI), der es Maschinen ermöglicht, visuelle Daten zu analysieren. 

Eine wichtige Bewertungskennzahl zur Messung der Genauigkeit von Bildverarbeitungssystemen und -algorithmen ist die mittlere durchschnittliche GenauigkeitmAP). Die mAP gibt an, wie genau die Vorhersage eines Bildverarbeitungsmodells mit realen Ergebnissen übereinstimmt.

Eine häufige Aufgabe der Computer Vision ist die Objekterkennung, bei der ein Modell mehrere Objekte in einem Bild identifiziert und Bounding Boxes um sie herum zeichnet. mAP ist die Standardmetrik, die zur Bewertung der Leistung von Objekterkennungsmodellen verwendet wird, und wird häufig zum Benchmarking von Deep Learning-Modellen wie Ultralytics YOLO11.

In diesem Artikel werden wir sehen, wie die mittlere durchschnittliche Präzision berechnet wird und warum sie für jeden, der Objekterkennungsmodelle trainiert oder bewertet, unerlässlich ist. Lass uns anfangen!

Was ist die durchschnittliche GenauigkeitmAP)?

Die mittlere durchschnittliche Präzision ist ein Wert, der zeigt, wie genau ein Deep-Learning-Modell bei Aufgaben im Zusammenhang mit dem Abruf visueller Informationen ist, wie z. B. das Erkennen und Identifizieren verschiedener Objekte in einem Bild. Betrachten Sie beispielsweise ein Objekterkennungsmodell, das ein Foto analysiert, das einen Hund, eine Katze und ein Auto enthält. Ein zuverlässiges Modell kann eine Objekterkennung durchführen, indem es jedes Objekt erkennt und Begrenzungsrahmen und Beschriftungen darum zeichnet, die hervorheben, wo es sich befindet und was es ist.

mAP gibt an, wie gut das Modell diese Aufgabe über viele Bilder und verschiedene Arten von Objekten hinweg erfüllt. Es wird geprüft, ob das Modell jedes Objekt und seine Position innerhalb des Bildes genau identifiziert. Der Wert reicht von 0 bis 1, wobei 1 bedeutet, dass das Modell alles perfekt gefunden hat, und 0 bedeutet, dass es keine Objekte detect .

Schlüsselkonzepte der mittleren durchschnittlichen GenauigkeitmAP)

Bevor wir die Konzepte hinter der mittleren durchschnittlichen Präzision (mean average precision) im maschinellen Lernen untersuchen, wollen wir zunächst zwei grundlegende Begriffe besser verstehen: Ground Truth und Vorhersagen. 

Ground Truth bezeichnet die akkuraten Referenzdaten, bei denen Objekte und ihre Positionen im Bild sorgfältig von Menschen durch einen Prozess, der als Annotation bekannt ist, gekennzeichnet werden. Vorhersagen sind die Ergebnisse, die KI-Modelle nach der Analyse eines Bildes liefern. Durch den Vergleich der Vorhersagen des KI-Modells mit der Ground Truth können wir messen, wie nahe das Modell an die korrekten Ergebnisse herangekommen ist. 

Abb. 1. Die Modellvorhersage und die Ground-Truth-Begrenzungsrahmen. Bild vom Autor.

Konfusionsmatrix

Eine Konfusionsmatrix wird oft verwendet, um zu verstehen, wie präzise ein Objekterkennungsmodell ist. Es ist eine Tabelle, die zeigt, wie die Vorhersagen des Modells mit den tatsächlichen richtigen Antworten (Ground Truth) übereinstimmen. Aus dieser Tabelle können wir eine Aufschlüsselung von vier Schlüsselkomponenten oder Ergebnissen erhalten: True Positives, False Positives, False Negatives und True Negatives.

Hier ist die Bedeutung der einzelnen Komponenten in der Confusion Matrix:

  • True positive (TP): Ein Objekt und seine Position werden vom Modell korrekt erkannt.
  • Falsch positiv (FP): Das Modell hat eine Erkennung vorgenommen, die jedoch falsch war.
  • Falsches Negativ (FN): Ein Objekt, das tatsächlich im Bild vorhanden war, aber das Modell konnte es nicht detect .
  • True negative (TN): True Negatives treten auf, wenn das Modell das Fehlen eines Objekts korrekt identifiziert.

Echte Negative werden bei der Objekterkennung in der Regel nicht verwendet, da wir die vielen leeren Bereiche in einem Bild normalerweise ignorieren. Bei anderen Bildverarbeitungsaufgaben, wie z. B. der Bildklassifizierung, bei der das Modell dem Bild eine Bezeichnung zuweist, ist es jedoch unerlässlich. Wenn die Aufgabe zum Beispiel darin besteht, detect , ob ein Bild eine Katze enthält oder nicht, und das Modell erkennt korrekt "keine Katze", wenn das Bild keine Katze enthält, ist das ein echtes Negativ.

Abb. 2. Klassifizierungsergebnisse in einer Konfusionsmatrix. Bild vom Autor.

Kreuzung über UnionIoU)

Eine weitere wichtige Metrik bei der Bewertung von Objekterkennungsmodellen ist Intersection over UnionIoU). Für solche Vision AI-Modelle reicht es nicht aus, einfach nur das Vorhandensein eines Objekts in einem Bild zu erkennen; sie müssen auch feststellen, wo sich das Objekt im Bild befindet, um Begrenzungsrahmen zu zeichnen. 

Die IoU misst, wie gut die vom Modell vorhergesagte Box mit der tatsächlichen, korrekten Box (Ground Truth) übereinstimmt. Der Wert liegt zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung und 0 keinerlei Überschneidung bedeutet.

Ein höherer IoU (z. B. 0,80 oder 0,85) bedeutet, dass das vorhergesagte Feld sehr gut mit dem Feld der Bodenwahrheit übereinstimmt, was auf eine genaue Lokalisierung hinweist. Ein niedriger IoU (wie 0,30 oder 0,25) bedeutet, dass das Modell das Objekt nicht genau lokalisiert hat.

Um festzustellen, ob eine Erkennung erfolgreich ist, verwenden wir verschiedene Schwellenwerte. Ein gängiger IoU liegt bei 0,5, d. h. ein vorhergesagtes Kästchen muss sich zu mindestens 50 % mit dem echten Kästchen überschneiden, um als wahrer Positivwert zu gelten. Jede Überlappung unterhalb dieses Schwellenwerts wird als falsch positiv betrachtet.

Abb. 3. Intersection over Union verstehen. Bild vom Autor.

Präzision und Trefferrate

Bisher haben wir einige grundlegende Evaluationsmetriken zum Verständnis der Leistung von Objektdetektionsmodellen untersucht. Darauf aufbauend sind Präzision und Rückruf (Recall) zwei der wichtigsten Metriken. Sie geben uns ein klares Bild davon, wie genau die Erkennungen des Modells sind. Sehen wir uns an, was sie sind.

Präzisionswerte sagen uns, wie viele der Vorhersagen des Modells tatsächlich richtig waren. Sie beantworten die Frage: Wie viele der Objekte, die das Modell zu detect vorgab, waren tatsächlich vorhanden?

Recall-Werte hingegen messen, wie gut das Modell alle tatsächlich im Bild vorhandenen Objekte findet. Er beantwortet die Frage: Wie viele der tatsächlich vorhandenen Objekte hat das Modell richtig detect?

Zusammen geben uns Precision und Recall ein klareres Bild davon, wie gut ein Modell funktioniert. Wenn ein Modell beispielsweise 10 Autos in einem Bild vorhersagt und 9 davon tatsächlich Autos sind, hat es eine Precision von 90 % (eine positive Vorhersage). 

Bei diesen beiden Evaluationsmetriken gibt es oft einen Kompromiss: Ein Modell kann einen hohen Präzisionswert erzielen, indem es nur Vorhersagen trifft, in die es vollstes Vertrauen hat, aber dies kann dazu führen, dass es viele Objekte übersieht, was den Recall-Wert senkt. Gleichzeitig kann es einen sehr hohen Recall-Wert erreichen, indem es fast überall eine Bounding Box vorhersagt, was jedoch die Präzision verringern würde.

Abb. 4. Präzision und Rückruf. Bild vom Autor.

Durchschnittliche Präzision

Während Präzision und Recall uns helfen zu verstehen, wie ein Modell bei einzelnen Vorhersagen abschneidet, kann die durchschnittliche PräzisionAP) einen umfassenderen Überblick bieten. Sie veranschaulicht, wie sich die Genauigkeit des Modells ändert, wenn es versucht, mehr Objekte detect , und fasst seine Leistung in einer einzigen Zahl zusammen.

Um den durchschnittlichen Präzisionswert zu berechnen, können wir zunächst eine kombinierte, graphähnliche Metrik erstellen, die als Precision-Recall-Kurve (oder PR-Kurve) für jeden Objekttyp bezeichnet wird. Diese Kurve zeigt, was passiert, wenn das Modell mehr Vorhersagen trifft. 

Betrachten wir ein Szenario, in dem das Modell zunächst nur die einfachsten oder offensichtlichsten Objekte erkennt. In diesem Stadium ist die Genauigkeit hoch, da die meisten Vorhersagen richtig sind, aber die Wiedererkennung ist niedrig, da immer noch viele Objekte übersehen werden. Wenn das Modell versucht, mehr Objekte detect , einschließlich der schwierigeren oder selteneren, treten in der Regel mehr Fehler auf. Dies führt dazu, dass die Genauigkeit sinkt, während die Rückrufquote steigt.

Die durchschnittliche Genauigkeit ist die Fläche unter der Kurve (AUC der PR-Kurve). Eine größere Fläche bedeutet, dass das Modell seine Vorhersagen besser trifft, auch wenn es mehr Objekte erkennt. Die AP wird für jedes Klassenlabel separat berechnet. 

Bei einem Modell, das beispielsweise Autos, Fahrräder und Fußgänger detect kann, können wir die AP für jede dieser drei Kategorien einzeln berechnen. Auf diese Weise können wir erkennen, welche Objekte das Modell gut erkennt und wo es möglicherweise noch verbessert werden muss.

Abb. 5. Eine PR-Kurve für fünf verschiedene Klassen. (Quelle)

Mittlere durchschnittliche Präzision

Nach der Berechnung der durchschnittlichen Genauigkeit für jede Objektklasse benötigen wir noch eine einzige Punktzahl, die die Gesamtleistung des Modells für alle Klassen widerspiegelt. Dies kann mit der Formel für die durchschnittliche Genauigkeit erreicht werden. Sie bildet den Durchschnitt der AP für jede Kategorie.

Nehmen wir zum Beispiel an, dass ein Computer-Vision-Modell wie YOLO11 einen AP von 0,827 für Autos, 0,679 für Motorräder, 0,355 für Lastwagen, 0,863 für Busse und 0,982 für Fahrräder erreicht. Mit Hilfe der mAP können wir diese Zahlen addieren und durch die Gesamtzahl der Klassen wie folgt dividieren: 

mAP = (0,827 + 0,679 + 0,355 + 0,863 + 0,982) ÷ 5 = 0,7432 ≈ 0,743

Die mAP von 0,743 bietet eine einfache Lösung, um zu beurteilen, wie gut das Modell über alle Objektklassen hinweg funktioniert. Ein Wert nahe bei 1 bedeutet, dass das Modell für die meisten Kategorien genau ist, während ein niedrigerer Wert darauf hindeutet, dass es bei einigen Schwierigkeiten hat.

Bedeutung von AP und mAP in der Computer Vision

Nachdem wir nun besser verstanden haben, wie AP und mAP berechnet werden und aus welchen Komponenten sie bestehen, geben wir hier einen Überblick über ihre Bedeutung für die Computer Vision:

  • Niedrige AP für eine bestimmte Klasse: Ein niedriger AP für eine einzelne Klasse bedeutet oft, dass das Modell Schwierigkeiten mit dieser speziellen Objektklasse hat. Dies kann auf unzureichende Trainingsdaten oder visuelle Herausforderungen in den Bildern, wie Verdeckung, zurückzuführen sein.
  • Lokalisierungsfehler: Ein höherer mAP bei einem niedrigeren IoU (z. B. mAP in Kombination mit einem deutlichen Abfall bei einem höheren IoU (z. B. mAP deutet darauf hin, dass das Modell zwar Objekte detect kann, aber Schwierigkeiten hat, sie genau zu lokalisieren.
  • Überanpassung: Ein höherer mAP im Trainingsdatensatz, aber ein niedrigerer mAP im Validierungsdatensatz ist ein Zeichen für eine Überanpassung, die das Modell für neue Bilder unzuverlässig macht.

Anwendungen der mittleren durchschnittlichen Präzision in der realen Welt

Als Nächstes wollen wir untersuchen, wie Schlüsselmetriken wie mAP bei der Entwicklung von realen Anwendungsfällen der Computer Vision helfen können.

Autonome Fahrzeuge: Warum ein höherer mAP sicherere Straßen bedeutet

Bei selbstfahrenden Autos ist die Objekterkennung entscheidend für die Erkennung von Fußgängern, Straßenschildern, Radfahrern und Fahrbahnmarkierungen. Wenn beispielsweise ein Kind plötzlich über die Straße läuft, hat das Auto Sekunden Zeit, um das Objekt (das Kind) detect , zu lokalisieren, seine Bewegung track und die notwendigen Maßnahmen zu ergreifen (Bremsen). 

Modelle wie YOLO11 sind für die Erkennung von Objekten in Echtzeit in solchen hochsensiblen Szenarien konzipiert. In diesen Fällen wird mAP zu einem entscheidenden Sicherheitsmaßstab.

Ein hoher mAP stellt sicher, dass das System das Kind schnell erkennt, es genau lokalisiert und mit minimaler Verzögerung eine Bremsung auslöst. Ein niedriger mAP kann dazu führen, dass das Kind nicht erkannt wird oder gefährliche Fehlklassifizierungen vorgenommen werden, z. B. die Verwechslung des Kindes mit einem anderen kleinen Objekt.

Abb. 6. Ein Beispiel für den Einsatz von YOLO11 zur detect Fußgängern auf der Straße.(Quelle)

Verwendung von mAP für eine genaue Produkterkennung

Auch im Einzelhandel können Objekterkennungsmodelle zur Automatisierung von Aufgaben wie Bestandsüberwachung und Kassiervorgängen eingesetzt werden. Wenn ein Kunde ein Produkt an einer Selbstbedienungskasse scannt, kann ein Fehler bei der Erkennung zu Frustration führen.

Ein hoher mAP stellt sicher, dass das Modell ähnliche Produkte genau unterscheidet und präzise Bounding Boxes zeichnet, selbst wenn die Artikel dicht gepackt sind. Ein niedriger mAP kann zu Verwechslungen führen. Wenn das Modell zum Beispiel eine Orangensaftflasche mit einer optisch ähnlichen Apfelsaftflasche verwechselt, kann dies zu einer falschen Rechnungsstellung und ungenauen Bestandsberichten führen.

Einzelhandelssysteme, die mit Modellen wie YOLO11 integriert sind, können Produkte in Echtzeit detect , sie mit dem Bestand abgleichen und Backend-Systeme sofort aktualisieren. In schnelllebigen Einzelhandelsumgebungen spielt mAP eine entscheidende Rolle für die Genauigkeit und Zuverlässigkeit der Abläufe.

Verbesserung der diagnostischen Genauigkeit mit hohem mAP im Gesundheitswesen

Die Verbesserung der Diagnosegenauigkeit im Gesundheitswesen beginnt mit der präzisen Erkennung in der medizinischen Bildgebung. Modelle wie YOLO11 können Radiologen dabei helfen, Tumore, Frakturen oder andere Anomalien auf diesen medizinischen Scans zu erkennen. In diesem Fall ist die durchschnittliche Genauigkeit eine wichtige Kennzahl für die Bewertung der klinischen Zuverlässigkeit eines Modells.

Ein hoher mAP zeigt an, dass das Modell sowohl einen hohen Recall (Identifizierung der meisten tatsächlichen Probleme) als auch eine hohe Präzision (Vermeidung von Fehlalarmen) erreicht, was für die klinische Entscheidungsfindung entscheidend ist. Außerdem wird der IoU im Gesundheitswesen oft sehr hoch angesetzt (0,85 oder 0,90), um eine extrem genaue Erkennung zu gewährleisten.

Ein niedriger mAP kann jedoch Anlass zur Sorge geben. Nehmen wir an, ein Modell übersieht einen Tumor; das könnte die Diagnose verzögern oder zu einer falschen Behandlung führen. 

Vor- und Nachteile der Verwendung von mAP

Hier sind die wichtigsten Vorteile der Verwendung von Mean Average Precision zur Bewertung von Objekterkennungsmodellen:

  • Standardisierte Metrik: mAP ist der Industriestandard für die Bewertung von Objekterkennungsmodellen. Ein mAP ermöglicht faire und konsistente Vergleiche zwischen verschiedenen Modellen.
  • Spiegelt die Leistung in der Praxis wider: Ein hoher mAP zeigt an, dass das Modell bei der Erkennung verschiedener Objektklassen hervorragend abschneidet und auch in komplexen, realen Szenarien eine gute Leistung erbringt.
  • Klassenweise Diagnose: Ein mAP bewertet die Erkennungsleistung für jede Klasse einzeln. Dies erleichtert die Identifizierung leistungsschwacher Kategorien (wie Fahrräder oder Straßenschilder) und die entsprechende Feinabstimmung des Modells.

Die Verwendung der mAP bietet zwar zahlreiche Vorteile, aber es gibt auch einige Einschränkungen zu beachten. Hier sind einige Faktoren, die zu berücksichtigen sind:

  • Schwierig für nicht-technische Interessengruppen: Geschäfts- oder Klinikteams empfinden mAP möglicherweise als abstrakt, im Gegensatz zu intuitiveren und leichter verständlichen Metriken.
  • Keine Berücksichtigung von Echtzeit-Zwängen: mAP berücksichtigt weder die Inferenzgeschwindigkeit noch die Latenzzeit, die für den Einsatz in zeitkritischen Anwendungen entscheidend sind.

Wesentliche Erkenntnisse

Wir haben gesehen, dass die durchschnittliche Genauigkeit nicht nur ein technischer Wert ist, sondern auch die potenzielle Leistung eines Modells in der Praxis widerspiegelt. Ob in einem autonomen Fahrzeugsystem oder an einer Einzelhandelskasse, eine hohe mAP ist ein zuverlässiger Indikator für die Leistung und Praxistauglichkeit eines Modells.

Obwohl mAP eine wichtige und aussagekräftige Kennzahl ist, sollte sie als Teil einer abgerundeten Bewertungsstrategie betrachtet werden. Für kritische Anwendungen wie das Gesundheitswesen und autonomes Fahren reicht es nicht aus, sich nur auf mAP zu verlassen. 

Zusätzliche Faktoren wie Inferenzgeschwindigkeit (wie schnell das Modell Vorhersagen trifft), Modellgröße (die sich auf den Einsatz auf Edge-Geräten auswirkt) und qualitative Fehleranalyse (das Verständnis der Arten von Fehlern, die das Modell macht) müssen ebenfalls berücksichtigt werden, um sicherzustellen, dass das System sicher, effizient und wirklich für seinen vorgesehenen Zweck geeignet ist.

Treten Sie unserer wachsenden Community und unserem GitHub-Repository bei, um mehr über Computer Vision zu erfahren. Auf unseren Lösungsseiten erfahren Sie mehr über Anwendungen von Computer Vision in der Landwirtschaft und KI in der Logistik. Informieren Sie sich über unsere Lizenzoptionen, um noch heute mit Ihrem eigenen Computer-Vision-Modell zu beginnen!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten