Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

So verbessern Sie die mAP kleine Objekte: Eine Kurzanleitung

Erfahren Sie, wie Sie mAP kleinen Objekten verbessern können, mit praktischen Tipps zu Datenqualität, Augmentierung, Trainingsstrategien, Bewertung und Bereitstellung.

Da künstliche Intelligenz (KI), maschinelles Lernen und Computer Vision immer mehr Verbreitung finden, kommen Objekterkennungssysteme mittlerweile überall zum Einsatz, von intelligenten Verkehrskameras über Drohnen bis hin zu Analysetools für den Einzelhandel. Oft wird von diesen Systemen erwartet, dass detect aller Größenordnungen detect , sei es ein großer Lkw in der Nähe der Kamera oder ein kleiner Fußgänger in weiter Entfernung.

In der Regel ist das Erkennen großer und deutlich sichtbarer Objekte einfacher. Im Gegensatz dazu ist das Erkennen kleiner Objekte schwieriger.

Wenn ein Objekt nur einen winzigen Teil des Bildes einnimmt, stehen nur sehr wenige visuelle Informationen zur Verfügung. Ein weit entfernter Fußgänger in einem Verkehrsbild oder ein kleines Fahrzeug aus der Vogelperspektive enthalten möglicherweise nur wenige Pixel, doch diese Pixel können wichtige Informationen enthalten. 

Computervisionsmodelle wieYOLO Ultralytics stützen sich auf visuelle Muster, um Objekte zu erkennen. Sind diese Muster begrenzt oder unklar, leidet die Leistung darunter. Bei der Verarbeitung können wichtige Details verloren gehen, wodurch Vorhersagen anfälliger für Lokalisierungsfehler werden. Selbst eine geringfügige Verschiebung eines Begrenzungsrahmens kann dazu führen, dass eine korrekte Erkennung zu einer Fehlerkennung wird.

Diese Lücke wird deutlich, wenn wir uns die Modellleistung ansehen. Die meisten Erkennungs- und Segmentierungsmodelle können mittelgroße und große Objekte gut verarbeiten, aber kleine Objekte verringern oft die Gesamtgenauigkeit.

Die Leistung von Deep Learning wird in der Regel anhand der mittleren durchschnittlichen Präzision( mAP) gemessen. Diese Kennzahl spiegelt sowohl die Genauigkeit der Erkennung als auch die Übereinstimmung der vorhergesagten Boxen mit den tatsächlichen Objekten wider. 

Es kombiniert Präzision, die angibt, wie viele vorhergesagte Objekte korrekt sind, und Recall, der angibt, wie viele tatsächliche Objekte erfolgreich erkannt werden, über verschiedene Konfidenzniveaus und Intersection over Union- oder IoU eine Metrik, die misst, wie stark sich die vorhergesagte Begrenzungsbox mit der Ground-Truth-Box überschneidet).

Zuvor haben wir uns mit der Erkennung kleiner Objekte befasst und untersucht, warum dies für Computer-Vision-Modelle ein so schwieriges Problem darstellt. In diesem Artikel bauen wir auf dieser Grundlage auf und konzentrieren uns darauf, wie sich mAP verbessern lässt, mAP kleine Objekte beteiligt sind. Los geht's!

Warum sind kleine Objekte schwieriger zu detect?

Bei Anwendungen mit Objektdetektoren wird ein kleines Objekt danach definiert, wie viel Platz es in einem Bild einnimmt, und nicht unbedingt danach, wie klein es für das menschliche Auge erscheint. Wenn es nur einen winzigen Teil des Bildes einnimmt, enthält es nur sehr wenige visuelle Informationen, was es für einen Computervisionsalgorithmus schwieriger macht, detect zu detect .

Abb. 1: Beispielbilder, die kleine Objekte zeigen, die nur einen begrenzten Pixelbereich einnehmen (Quelle)

Da weniger Pixel zur Verfügung stehen, können wichtige Details wie Kanten, Formen und Texturen unklar sein oder leicht verloren gehen. Während das Bild vom Modell verarbeitet wird, wird es in der Größe angepasst und vereinfacht, um nützliche Muster hervorzuheben. 

Dies hilft dem Modell zwar, die Gesamtszene zu verstehen, kann jedoch auch dazu führen, dass feine Details noch weiter reduziert werden. Bei kleinen Objekten sind diese Details oft für eine korrekte Erkennung unerlässlich.

Diese Herausforderungen werden noch deutlicher, wenn man sich die Bewertungskennzahlen ansieht. Kleine Objekte reagieren besonders empfindlich auf Lokalisierungsfehler. Selbst eine leicht falsch ausgerichtete Begrenzungsbox kann unter den erforderlichen Schwellenwert für die Schnittmenge über die Vereinigung (Intersection over IoU) fallen. 

In diesem Fall kann eine Vorhersage, die vernünftig erscheint, als falsch gewertet werden. Dies senkt sowohl die Präzision als auch die Wiederauffindbarkeit, was letztendlich zu einer Verringerung der mittleren durchschnittlichen Präzision ( mAP) führt.

Da diese Faktoren eng miteinander verbunden sind, erfordert die Verbesserung der Leistung oft eine Betrachtung des gesamten Systems. Das bedeutet, dass Bildauflösung, Merkmalsextraktion, Modelldesign und Bewertungseinstellungen sorgfältig aufeinander abgestimmt werden müssen, damit kleine visuelle Details besser erhalten bleiben und interpretiert werden können.

Die Bedeutung der Qualität von Datensätzen und Annotationen

Bei der Erkennung kleiner Objekte hat die Qualität eines Datensatzes oft den größten Einfluss auf die Leistung. Kleine Objekte nehmen nur einen winzigen Teil eines Bildes ein, was bedeutet, dass dem Modell nur sehr wenige visuelle Informationen zum Lernen zur Verfügung stehen. Aus diesem Grund sind die Trainingsdaten besonders wichtig. Wenn der Datensatz nicht genügend klare und repräsentative Beispiele enthält, wird das Objekterkennungsmodell Schwierigkeiten haben, konsistente Muster zu erkennen.

Datensätze, die sich gut für die Erkennung kleiner Objekte eignen, enthalten in der Regel hochauflösende Bilder, häufige Vorkommen kleiner Ziele und konsistente visuelle Bedingungen. Generische Datensätze wie der COCO sind zwar nützliche Ausgangspunkte, entsprechen jedoch oft nicht dem Umfang, der Dichte oder dem Kontext spezifischer Anwendungsfälle in der Praxis. In solchen Fällen ist es notwendig, domänenspezifische Trainingsdaten zu sammeln, um die Modellleistung zu verbessern.

Die Qualität der Annotationen spielt ebenfalls eine entscheidende Rolle. Annotationen legen die Grundwahrheit fest, indem sie die korrekten Objektbezeichnungen und Begrenzungsrahmenpositionen angeben, die das Modell zur Vorhersage lernt.

Bei kleinen Objekten müssen Begrenzungsrahmen sorgfältig und konsistent gezeichnet werden. Selbst geringfügige Unterschiede in der Platzierung der Rahmen können die Lokalisierungsgenauigkeit merklich beeinträchtigen, da kleine Objekte sehr empfindlich auf Verschiebungen auf Pixelebene reagieren.

Schlechte oder inkonsistente Annotationen können mAP erheblich verringern. Wenn Objekte falsch beschriftet sind, lernt das Modell falsche Muster, was zu einer Zunahme von Fehlalarmen führen kann. 

Wenn Objekte im Bild erscheinen, aber in der Ground Truth fehlen, können korrekte Erkennungen bei der Auswertung als Fehlalarme gezählt werden. Beide Situationen beeinträchtigen die Gesamtleistung.

Interessanterweise zeigen aktuelle Forschungsergebnisse, dass die durchschnittliche Genauigkeit bei kleinen Objekten in Standard-Benchmarks oft zwischen 20 % und 40 % liegt, was deutlich unter dem Wert für größere Objekte liegt. Diese Diskrepanz unterstreicht die Bedeutung der Konsistenz bei der Gestaltung von Datensätzen und der Annotation für die Gesamtgenauigkeit der Erkennung.

Datenanreicherung kann eine wichtige Rolle bei der Verbesserung der Genauigkeit spielen.

Nachdem wir nun die Bedeutung der Datensatzqualität und der Konsistenz der Annotationen besser verstehen, wollen wir uns ansehen, wie ein Objekterkennungsmodell effektiver aus vorhandenen Daten lernen kann. Selbst wenn das Sammeln zusätzlicher Bilder schwierig oder kostspielig ist, gibt es dennoch Möglichkeiten, die Leistung zu verbessern, indem die bereits verfügbaren Daten besser genutzt werden.

Einer der praktischsten Ansätze ist die Datenvergrößerung. Sie spielt eine besonders wichtige Rolle bei der Erkennung kleiner Objekte, da diese dem Modell weniger visuelle Anhaltspunkte zum Lernen bieten. Durch die Einführung kontrollierter Variationen während des Trainings hilft die Vergrößerung dem Modell, besser zu generalisieren, ohne dass neue Daten gesammelt werden müssen.

Eine effektive Datenvergrößerung konzentriert sich darauf, kleine Objekte deutlich sichtbar zu halten. Techniken wie kontrollierte Größenänderung, leichtes Zuschneiden und Bildkachelung können kleine Objekte besser hervorheben und gleichzeitig ihre Form und ihr Aussehen bewahren. Das Ziel besteht darin, dem Modell zu helfen, kleine Objekte häufiger und unter leicht unterschiedlichen Bedingungen zu erkennen, ohne ihr Aussehen in realen Situationen zu verändern. 

Allerdings muss die Augmentierung sorgfältig angewendet werden. Einige Transformationen können die Sichtbarkeit kleiner Objekte verringern oder ihr Aussehen auf eine Weise verändern, die in realen Daten unwahrscheinlich ist. In diesem Fall kann es für das Modell schwierig sein, genaue Objektgrenzen zu lernen.

Intelligentere Datenanreicherung mit generativer KI

Eine weitere interessante Art der Datenanreicherung, die immer beliebter wird, ist der Einsatz generativer KI zur Erstellung synthetischer Trainingsdaten. Anstatt sich auf manuell gesammelte und beschriftete Bilder zu verlassen, können Teams nun realistische Szenen generieren, die bestimmte Umgebungen, Objektgrößen, Lichtverhältnisse und Hintergrundvariationen simulieren.

Abb. 2: Ein Blick auf synthetische Luftbilder, die zur Datenvergrößerung verwendet werden (Quelle)

Dieser Ansatz ist besonders nützlich für die Erkennung kleiner Objekte, bei denen es schwierig sein kann, Beispiele aus der realen Welt konsistent zu erfassen. Durch die Steuerung der Darstellung kleiner Objekte in synthetischen Bildern, z. B. durch Anpassung von Größe, Dichte und Platzierung, ist es möglich, Modelle einem breiteren Spektrum von Trainingsszenarien auszusetzen. 

Bei sorgfältiger Kombination mit realen Daten kann die synthetische Erweiterung die Robustheit des Modells verbessern, die Kosten für die Datenerfassung senken und gezieltere Leistungsverbesserungen unterstützen.

Auswahlmöglichkeiten für das Modelltraining, die sich auf mAP für kleine Objekte auswirken können

Neben der Qualität des Datensatzes und der Konsistenz der Annotationen haben auch die Entscheidungen beim Modelltraining einen starken Einfluss auf die Erkennungsleistung kleiner Objekte.

Hier sind einige der wichtigsten Trainingsstrategien, die Sie berücksichtigen sollten:

  • Beginnen Sie mit vortrainierten Modellen: Ein vortrainiertes Modell wie Ultralytics hat bereits allgemeine visuelle Muster aus großen Bilddatensätzen gelernt. Dies bietet einen guten Ausgangspunkt, anstatt von Grund auf neu zu trainieren, was besonders bei der Erkennung kleiner Objekte mit begrenzten Daten hilfreich ist.
  • Transferlernen strategisch einsetzen: Transferlernen bedeutet, ein vortrainiertes Modell an Ihren spezifischen Datensatz anzupassen. Es hilft dem Modell, sich auf Ihre kleinen Objekte zu konzentrieren und gleichzeitig Überanpassung zu reduzieren (das Auswendiglernen der Trainingsdaten anstelle des Lernens allgemeiner Muster).
  • Beheben Sie das Ungleichgewicht zwischen Klassen: Wenn kleine Objekte seltener auftreten als größere, priorisiert das Modell möglicherweise das Lernen größerer Objekte. Techniken wie Klassengewichtung oder Stichprobenstrategien tragen dazu bei, dass kleine Objekte nicht ignoriert werden.
  • Vertrauens- und IoU anpassen: Kleine Objekte reagieren empfindlich auf kleine Lokalisierungsfehler. Durch die Feinabstimmung dieser Schwellenwerte lässt sich die Leistung bei kleinen Objekten während der Validierung und Inferenz besser bewerten und interpretieren.

Überlegungen zur Modellarchitektur für die Erkennung kleiner Objekte

Während Sie für Aufgaben mit kleinen Objekten ein allgemeines Objekterkennungsmodell verwenden können, gibt es auch Modellarchitekturen, die speziell zur Verbesserung der Erkennung kleiner Objekte entwickelt wurden. So gibt es beispielsweise P2-Modellvarianten des Ultralytics YOLOv8 , die für die Erhaltung feiner räumlicher Details optimiert sind.

YOLOv8 Bilder in mehreren Maßstäben, indem es sie nach und nach verkleinert, während sie sich tiefer durch das Netzwerk bewegen. Dies hilft dem Modell, die Gesamtszene zu verstehen, reduziert jedoch auch feine Details.

Wenn ein Objekt bereits sehr klein ist, können wichtige visuelle Informationen während dieses Prozesses verloren gehen. Die P2-Variante von Ultralytics YOLOv8 dieses Problem, indem sie in ihrer Merkmalspyramide einen Schritt von 2 verwendet. 

Eine Feature-Pyramide ist der Teil des Modells, der das Bild mit mehreren internen Auflösungen analysiert, um detect unterschiedlicher Größe detect zu können. Mit einem Schritt von 2 wird das Bild in dieser Phase allmählicher verkleinert, sodass mehr Details auf Pixelebene erhalten bleiben. 

Da mehr räumliche Details erhalten bleiben, behalten kleine Objekte innerhalb des Netzwerks eine besser sichtbare Struktur. Dadurch kann das Modell detect , die nur wenige Pixel einnehmen, leichter lokalisieren und detect , was zur Verbesserung mAP kleiner Objekte beitragen kann.

Größenbewusste Auswertung zur Erkennung kleiner Objekte

Die mittlere durchschnittliche Präzision fasst zwar die Gesamtleistung des Modells zusammen, zeigt jedoch nicht immer, wie gut ein Modell mit Objekten unterschiedlicher Größe umgeht. Bei kleinen Objekten wird die Leistung häufig eher durch die Lokalisierungsgenauigkeit als durch die Klassifizierung allein eingeschränkt, was bedeutet, dass bereits geringfügige Verschiebungen der Begrenzungsrahmen die Ergebnisse erheblich beeinflussen können.

Mit anderen Worten: Das Modell identifiziert zwar möglicherweise die Klasse des Objekts korrekt, aber wenn die vorhergesagte Begrenzungsbox leicht versetzt ist, kann die Erkennung dennoch als falsch angesehen werden. Da kleine Objekte nur eine geringe Anzahl von Pixeln abdecken, kann bereits eine geringfügige Verschiebung der Box-Platzierung die Überlappung zwischen der vorhergesagten Box und der tatsächlichen Position erheblich verringern. Infolgedessen können die Bewertungsergebnisse selbst dann sinken, wenn das Objekt korrekt identifiziert wurde.

Abb. 3: Die Bewertung der Erkennung kleiner Objekte kann schwierig sein (Quelle)

Ein informativerer Ansatz besteht darin, die Leistung anhand der Objektgröße zu bewerten. Die meisten gängigen Benchmarks geben die durchschnittliche Genauigkeit für kleine, mittlere und große Objekte separat an. 

Diese auf die Größe bezogene Aufschlüsselung vermittelt einen klareren Überblick darüber, wo das Modell gute Leistungen erbringt und wo es Schwierigkeiten hat. In der Praxis bleibt AP für kleine Objekte oft hinter mAP zurück, was auf Lokalisierungsprobleme hinweist, die in aggregierten Metriken möglicherweise nicht offensichtlich sind.

Berücksichtigen Sie Einsatzbeschränkungen und reale Kompromisse.

Die Modellleistung ändert sich häufig beim Übergang von kontrollierten Testumgebungen zum Einsatz in der Praxis. Faktoren wie Bildauflösung, Verarbeitungsgeschwindigkeit und verfügbare Hardware führen zu Kompromissen, die sich direkt auf die Erkennung kleiner Objekte auswirken.

Beispielsweise kann eine Erhöhung der Eingabeauflösung mAP kleiner Objekte verbessern, mAP kleine Ziele mehr Pixel einnehmen und mehr Details beibehalten. Eine höhere Auflösung erhöht jedoch auch den Speicherbedarf und die Verarbeitungszeit. Dies kann die Inferenz verlangsamen und die Betriebskosten erhöhen.

Abb. 4: Herausforderungen bei der Erkennung kleiner Objekte. Bild vom Autor.

Die Wahl der Hardware spielt eine entscheidende Rolle bei der Bewältigung dieser Kompromisse. Leistungsstärkere GPUs ermöglichen größere Modelle und eine schnellere Verarbeitung, aber Bereitstellungsumgebungen, insbesondere Edge-Geräte, verfügen oft nur über begrenzte Rechen- und Speicherressourcen. 

Echtzeitanwendungen bringen eine weitere Einschränkung mit sich: Um eine geringe Latenz aufrechtzuerhalten, muss möglicherweise die Modellgröße oder die Eingabeauflösung reduziert werden, was sich negativ auf die Erkennung kleiner Objekte auswirken kann. Letztendlich müssen bei Entscheidungen zur Bereitstellung die Erkennungsleistung, die Hardwarebeschränkungen, die Geschwindigkeitsanforderungen und die Gesamtkosten gegeneinander abgewogen werden. 

Alles zusammenfassen: Verbesserung des mAP Modells mAP kleinen Objekten

Die Verbesserung der Erkennung kleiner Objekte erfordert einen praktischen und strukturierten Ansatz, insbesondere bei der Arbeit in realen Umgebungen. Hier finden Sie eine Übersicht über die wichtigsten Schritte, die Sie beachten sollten:

  • Überprüfen Sie die Qualität Ihres Datensatzes: Stellen Sie sicher, dass Ihr Datensatz genügend Beispiele für kleine Objekte enthält, nach Möglichkeit hochauflösende Bilder verwendet und die Bedingungen widerspiegelt, unter denen das Modell eingesetzt wird.
  • Überprüfen Sie die Konsistenz der Annotationen: Stellen Sie sicher , dass die Begrenzungsrahmen korrekt, vollständig und einheitlich beschriftet sind. Inkonsistente Annotationen können die Lokalisierungsleistung direkt beeinträchtigen.
  • Trainingsparameter bewusst anpassen: Passen Sie die Batchgröße, die Anzahl der Epochen und die Optimierungseinstellungen sorgfältig an , damit kleine Objekte während des Trainings korrekt dargestellt werden.
  • Schritt für Schritt iterieren: Nehmen Sie kontrollierte Anpassungen vor , messen Sie deren Auswirkungen und verfeinern Sie Ihren Ansatz. Stetige, datengestützte Iteration führt im Laufe der Zeit zu einer kontinuierlichen Verbesserung.

Wesentliche Erkenntnisse

Die Verbesserung mAP kleine Objekte erfordert einen strukturierten, datengestützten Ansatz anstelle von zufälligen Optimierungen. Echte Verbesserungen lassen sich durch die Kombination von guten Daten, konsistenten Annotationen, sorgfältigem Training und den richtigen Bewertungsmethoden erzielen. In realen Projekten führen kontinuierliche Tests und kleine, messbare Änderungen im Laufe der Zeit zu einer besseren und zuverlässigeren Erkennung kleiner Objekte.

Werden Sie Teil unserer wachsenden Community und entdecken Sie in unserem GitHub-Repository praktische KI-Ressourcen. Wenn Sie noch heute mit Vision-KI arbeiten möchten, informieren Sie sich über unsere Lizenzoptionen. Auf unseren Lösungsseiten erfahren Sie, wie KI in der Landwirtschaft den Ackerbau verändert und wie Vision-KI in der Robotik die Zukunft gestaltet.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten