Anleitungen

So verbesserst du das Modell-mAP bei kleinen Objekten: Eine Kurzanleitung

Erfahre, wie du das Modell-mAP bei kleinen Objekten verbesserst, mit praktischen Tipps zu Datenqualität, Augmentierung, Trainingsstrategien, Evaluierung und Bereitstellung.

ABAbirami Vina4 min readFebruary 19, 2026

Verbesserung des mAP von Objekterkennungsmodellen bei kleinen Objekten

Da die Verbreitung von künstlicher Intelligenz (KI), maschinellem Lernen und Computer Vision stetig wächst, kommen Objekterkennungssysteme überall zum Einsatz – von intelligenten Verkehrskameras bis hin zu Drohnen und Tools für die Einzelhandelsanalyse. Oft wird von diesen Systemen erwartet, dass sie Objekte jeder Größe erkennen, sei es ein großer Lkw in Kameranähe oder ein winziger Fußgänger in weiter Entfernung.

Normalerweise ist es einfacher, große und gut sichtbare Objekte zu erkennen. Im Gegensatz dazu ist die Erkennung kleiner Objekte deutlich anspruchsvoller.

Wenn ein Objekt nur einen winzigen Teil des Bildes einnimmt, gibt es nur sehr wenige visuelle Informationen, mit denen gearbeitet werden kann. Ein weit entfernter Fußgänger in einem Verkehrs-Feed oder ein kleines Fahrzeug aus der Vogelperspektive besteht vielleicht nur aus wenigen Pixeln, doch genau diese Pixel können entscheidende Informationen enthalten.

Computer Vision-Modelle wie Ultralytics YOLO-Modelle verlassen sich auf visuelle Muster, um Objekte zu identifizieren, und wenn diese Muster begrenzt oder unscharf sind, leidet die Leistung. Wichtige Details können bei der Verarbeitung verloren gehen, was Vorhersagen anfälliger für Lokalisierungsfehler macht. Schon eine geringfügige Verschiebung einer Bounding Box kann aus einer korrekten Erkennung einen Fehler machen.

Diese Lücke wird deutlich, wenn wir uns die Modellleistung ansehen. Die meisten Erkennungs- und Segmentierungsmodelle kommen mit mittleren und großen Objekten gut zurecht, doch kleine Objekte mindern oft die Gesamtgenauigkeit.

Die Leistung von Deep Learning wird üblicherweise mittels mean average precision, kurz mAP, gemessen. Diese Kennzahl spiegelt sowohl wider, wie präzise die Erkennungen sind, als auch, wie gut die vorhergesagten Boxen mit den tatsächlichen Objekten übereinstimmen.

Sie kombiniert die Precision, die anzeigt, wie viele der vorhergesagten Objekte korrekt sind, mit dem Recall, der anzeigt, wie viele der tatsächlichen Objekte erfolgreich erkannt wurden – dies über verschiedene Konfidenzniveaus und Intersection over Union-Schwellenwerte, kurz IoU (ein Maß dafür, wie stark die vorhergesagte Bounding Box mit der Ground Truth-Box überlappt), hinweg.

Wir haben uns bereits mit der Erkennung kleiner Objekte befasst und erläutert, warum sie für Computer Vision-Modelle so ein schwieriges Problem darstellt. In diesem Artikel bauen wir darauf auf und konzentrieren uns darauf, wie du das mAP verbessern kannst, wenn kleine Objekte involviert sind. Fangen wir an!

Link to this sectionWarum sind kleine Objekte schwieriger zu erkennen?#

Bei Anwendungen mit Objekterkennungs-Algorithmen wird ein kleines Objekt dadurch definiert, wie viel Platz es in einem Bild einnimmt, nicht unbedingt dadurch, wie klein es für das menschliche Auge aussieht. Wenn es nur einen winzigen Teil des Bildes belegt, enthält es nur sehr wenige visuelle Informationen, was es für einen Computer Vision-Algorithmus schwieriger macht, es präzise zu erkennen.

Beispielbilder, die kleine Objekte zeigen, welche nur einen begrenzten Pixelbereich einnehmen

Abb. 1. Beispielbilder, die kleine Objekte in begrenzten Pixelbereichen zeigen (Quelle)

Da weniger Pixel zur Verfügung stehen, können wichtige Details wie Kanten, Formen und Texturen unklar oder leicht verloren gehen. Während das Bild vom Modell verarbeitet wird, wird es verkleinert und vereinfacht, um nützliche Muster hervorzuheben.

Dies hilft dem Modell zwar, die Gesamtszene zu verstehen, kann aber feine Details noch weiter reduzieren. Bei kleinen Objekten sind diese Details oft entscheidend für eine korrekte Erkennung.

Diese Herausforderungen werden noch deutlicher, wenn man sich Evaluierungsmetriken ansieht. Kleine Objekte sind besonders anfällig für Lokalisierungsfehler. Selbst eine leicht falsch ausgerichtete Bounding Box kann unter den erforderlichen Intersection over Union-Schwellenwert (IoU) fallen.

Wenn das passiert, kann eine Vorhersage, die plausibel aussieht, als inkorrekt gewertet werden. Dies senkt sowohl Precision als auch Recall, was letztendlich das mean average precision, kurz mAP, reduziert.

Da diese Faktoren eng miteinander verbunden sind, erfordert die Leistungssteigerung oft das Mitdenken des gesamten Systems. Das bedeutet, Bildauflösung, Merkmalsextraktion, Modelldesign und Evaluierungseinstellungen sorgfältig abzuwägen, damit kleine visuelle Details besser erhalten und interpretiert werden.

Link to this sectionDie Bedeutung von Datenqualität und Annotationen#

Bei der Erkennung kleiner Objekte macht die Qualität des Datensatzes oft den größten Unterschied bei der Leistung. Kleine Objekte nehmen nur einen winzigen Teil eines Bildes ein, was bedeutet, dass dem Modell nur sehr wenige visuelle Informationen zum Lernen zur Verfügung stehen. Aus diesem Grund werden die Trainingsdaten besonders wichtig. Wenn der Datensatz nicht genügend klare und repräsentative Beispiele enthält, wird das Objekterkennungsmodell Schwierigkeiten haben, konsistente Muster zu erkennen.

Datensätze, die gut für die Erkennung kleiner Objekte funktionieren, enthalten in der Regel hochauflösende Bilder, häufige Auftritte kleiner Ziele und konsistente visuelle Bedingungen. Während generische Datensätze wie der COCO-Datensatz nützliche Startpunkte sind, entsprechen sie oft nicht dem Maßstab, der Dichte oder dem Kontext spezifischer realer Anwendungsfälle. In solchen Fällen ist das Sammeln domänenspezifischer Trainingsdaten notwendig, um die Modellleistung zu verbessern.

Annotierungsqualität spielt ebenfalls eine entscheidende Rolle. Annotationen legen die Ground Truth fest, indem sie die korrekten Objektlabels und die Positionen der Bounding Boxes angeben, die das Modell lernen soll vorherzusagen.

Für kleine Objekte müssen Bounding Boxes sorgfältig und konsistent gezeichnet werden. Selbst geringfügige Unterschiede bei der Platzierung der Boxen können die Lokalisierungsgenauigkeit spürbar beeinflussen, da kleine Objekte sehr empfindlich auf Verschiebungen auf Pixelebene reagieren.

Schlechte oder inkonsistente Annotationen können das mAP signifikant senken. Wenn Objekte falsch gelabelt sind, lernt das Modell inkorrekte Muster, was die Falsch-Positiv-Rate erhöhen kann.

Wenn Objekte im Bild erscheinen, aber in der Ground Truth fehlen, können korrekte Erkennungen bei der Evaluierung als Falsch-Positive gewertet werden. Beide Situationen mindern die Gesamtleistung.

Interessanterweise deuten aktuelle Forschungsergebnisse darauf hin, dass die durchschnittliche Precision für kleine Objekte auf Standard-Benchmarks oft zwischen 20% und 40% bleibt, was signifikant niedriger ist als bei größeren Objekten. Diese Lücke unterstreicht die Wichtigkeit des Datensatzdesigns und der Annotationskonsistenz für die gesamte Erkennungsgenauigkeit.

Link to this sectionDatenaugmentation kann eine Schlüsselrolle bei der Verbesserung der Genauigkeit spielen#

Mit einem besseren Verständnis für die Wichtigkeit der Datensatzqualität und der Konsistenz bei den Annotationen schauen wir uns nun an, wie ein Objekterkennungsmodell effektiver von vorhandenen Daten lernen kann. Selbst wenn das Sammeln zusätzlicher Bilder schwierig oder teuer ist, gibt es immer noch Möglichkeiten, die Leistung zu verbessern, indem die bereits verfügbaren Daten besser genutzt werden.

Einer der praktischsten Ansätze ist Data Augmentation. Sie spielt bei der Erkennung kleiner Objekte eine besonders wichtige Rolle, da kleine Objekte dem Modell weniger visuelle Anhaltspunkte liefern, aus denen es lernen kann. Durch die Einführung kontrollierter Variationen während des Trainings hilft Augmentation dem Modell, besser zu generalisieren, ohne dass eine neue Datenerhebung erforderlich ist.

Effektive Data Augmentation konzentriert sich darauf, kleine Objekte klar sichtbar zu halten. Techniken wie kontrollierte Größenänderung, leichtes Zuschneiden und Image Tiling können kleine Objekte stärker hervorheben, während deren Form und Aussehen erhalten bleiben. Das Ziel ist es, dem Modell zu helfen, kleine Objekte häufiger und unter leicht unterschiedlichen Bedingungen zu sehen, ohne zu verändern, wie sie in realen Situationen aussehen.

Augmentation muss jedoch vorsichtig eingesetzt werden. Einige Transformationen können die Sichtbarkeit kleiner Objekte verringern oder ihr Aussehen auf eine Weise verändern, die in realen Daten unwahrscheinlich ist. Wenn dies geschieht, könnte das Modell Schwierigkeiten haben, präzise Objektgrenzen zu lernen.

Link to this sectionIntelligentere Data Augmentation mit generativer KI#

Eine weitere interessante Art der Data Augmentation, die immer beliebter wird, ist der Einsatz von generativer KI zur Erstellung synthetischer Trainingsdaten. Anstatt sich auf manuell gesammelte und gelabelte Bilder zu verlassen, können Teams jetzt realistische Szenen generieren, die spezifische Umgebungen, Objektgrößen, Lichtverhältnisse und Hintergrundvariationen simulieren.

Synthetische Luftbilder zur Datenaugmentierung

Abb. 2. Ein Blick auf synthetische Luftbilder, die für Data Augmentation verwendet werden (Quelle)

Dieser Ansatz ist besonders nützlich für die Erkennung kleiner Objekte, bei denen reale Beispiele schwer konsistent zu erfassen sein können. Durch die Steuerung, wie kleine Objekte in synthetischen Bildern erscheinen, wie etwa durch Anpassung von Skalierung, Dichte und Platzierung, ist es möglich, Modellen ein breiteres Spektrum an Trainingsszenarien auszusetzen.

Bei sorgfältiger Kombination mit realen Daten kann synthetische Augmentation die Modellrobustheit verbessern, Datenerhebungskosten senken und zielgerichtetere Leistungsverbesserungen unterstützen.

Link to this sectionEntscheidungen beim Modelltraining, die das mAP bei kleinen Objekten beeinflussen können#

Neben der Datensatzqualität und der Konsistenz der Annotationen haben auch die Entscheidungen beim Modelltraining einen starken Einfluss auf die Leistung bei der Erkennung kleiner Objekte.

Hier sind einige der wichtigsten Trainingsstrategien, die du in Betracht ziehen solltest:

Starte mit vortrainierten Modellen: Ein vortrainiertes Modell, wie Ultralytics YOLO26, hat bereits allgemeine visuelle Muster aus großen Bilddatensätzen gelernt. Dies bietet einen starken Ausgangspunkt, anstatt von Grund auf neu zu trainieren, was besonders hilfreich ist, wenn kleine Objekte mit begrenzten Daten erkannt werden sollen.
Nutze Transfer Learning strategisch: Transfer Learning bedeutet, ein vortrainiertes Modell an deinen spezifischen Datensatz anzupassen. Es hilft dem Modell, sich auf deine kleinen Objekte zu konzentrieren, während Overfitting (das Auswendiglernen der Trainingsdaten statt des Lernens allgemeiner Muster) reduziert wird.
Gehe Klassenungleichgewicht an: Wenn kleine Objekte seltener vorkommen als größere, priorisiert das Modell möglicherweise das Erlernen größerer Objekte. Techniken wie Klassengewichtung oder Sampling-Strategien helfen sicherzustellen, dass kleine Objekte nicht ignoriert werden.
Passe Konfidenz- und IoU-Schwellenwerte an: Kleine Objekte sind anfällig für geringfügige Lokalisierungsfehler. Das Feintuning dieser Schwellenwerte hilft, die Leistung bei kleinen Objekten während Validierung und Inferenz besser zu bewerten und zu interpretieren.

Link to this sectionÜberlegungen zur Modellarchitektur für die Erkennung kleiner Objekte#

Während du ein allgemeines Objekterkennungsmodell für Aufgaben mit kleinen Objekten verwenden kannst, gibt es auch Modellarchitekturen, die speziell darauf ausgelegt sind, die Erkennung kleiner Objekte zu verbessern. Zum Beispiel gibt es P2-Modellvarianten des Ultralytics YOLOv8-Modells, die für die Erhaltung feiner räumlicher Details optimiert sind.

YOLOv8 verarbeitet Bilder in mehreren Skalierungen, indem es sie schrittweise verkleinert, während sie tiefer in das Netzwerk gelangen. Dies hilft dem Modell, die Gesamtszene zu verstehen, reduziert aber auch feine Details.

Wenn ein Objekt bereits sehr klein ist, können wichtige visuelle Informationen während dieses Prozesses verschwinden. Die P2-Variante von Ultralytics YOLOv8 adressiert dies durch die Verwendung eines Strides von 2 in seiner Feature-Pyramide.

Eine Feature-Pyramide ist der Teil des Modells, der das Bild bei mehreren internen Auflösungen analysiert, damit es Objekte verschiedener Größen erkennen kann. Mit einem Stride von 2 wird das Bild in dieser Phase langsamer verkleinert, was es ermöglicht, mehr der ursprünglichen Details auf Pixelebene zu erhalten.

Da mehr räumliche Details erhalten bleiben, behalten kleine Objekte innerhalb des Netzwerks mehr sichtbare Strukturen. Dies macht es für das Modell einfacher, Objekte zu lokalisieren und zu erkennen, die nur wenige Pixel einnehmen, was dazu beitragen kann, das mAP für kleine Objekte zu verbessern.

Link to this sectionGrößenbewusste Evaluierung für die Erkennung kleiner Objekte#

Während das mean average precision die Gesamtmodellleistung zusammenfasst, zeigt es nicht immer, wie gut ein Modell mit Objekten unterschiedlicher Größen umgeht. Bei kleinen Objekten ist die Leistung oft durch die Lokalisierungsgenauigkeit begrenzt und nicht allein durch die Klassifizierung, was bedeutet, dass geringfügige Verschiebungen der Bounding Box die Ergebnisse signifikant beeinflussen können.

Mit anderen Worten: Das Modell identifiziert möglicherweise korrekt die Klasse des Objekts, aber wenn die vorhergesagte Bounding Box leicht falsch ausgerichtet ist, kann die Erkennung dennoch als inkorrekt betrachtet werden. Da kleine Objekte nur eine geringe Anzahl von Pixeln abdecken, kann selbst eine kleine Verschiebung bei der Platzierung der Box die Überlappung zwischen der vorhergesagten Box und der Ground Truth deutlich verringern. Infolgedessen können Evaluierungswerte sinken, selbst wenn das Objekt korrekt identifiziert wurde.

Die Evaluierung der Erkennung kleiner Objekte kann schwierig sein

Abb. 3. Die Evaluierung der Erkennung kleiner Objekte kann schwierig sein (Quelle)

Ein informativerer Ansatz ist es, die Leistung nach Objektgröße zu evaluieren. Die meisten weit verbreiteten Benchmarks berichten die Average Precision separat für kleine, mittlere und große Objekte.

Diese größenspezifische Aufschlüsselung bietet einen klareren Blick darauf, wo das Modell gut funktioniert und wo es kämpft. In der Praxis liegt die Small-Object AP oft hinter dem Gesamt-mAP zurück, was Lokalisierungsherausforderungen hervorhebt, die in aggregierten Metriken möglicherweise nicht offensichtlich sind.

Link to this sectionBerücksichtige Deployment-Einschränkungen und reale Kompromisse#

Die Modellleistung ändert sich oft, wenn man von kontrollierten Testumgebungen zum realen Deployment übergeht. Faktoren wie Bildauflösung, Verarbeitungsgeschwindigkeit und verfügbare Hardware führen zu Kompromissen, die sich direkt auf die Erkennung kleiner Objekte auswirken.

Beispielsweise kann die Erhöhung der Eingangsauflösung das mAP kleiner Objekte verbessern, da kleine Ziele mehr Pixel belegen und mehr Details beibehalten. Eine höhere Auflösung erhöht jedoch auch die Speichernutzung und die Verarbeitungszeit. Dies kann die Inferenz verlangsamen und die Betriebskosten in die Höhe treiben.

Herausforderungen bei der Bereitstellung von Systemen zur Erkennung kleiner Objekte

Abb. 4. Herausforderungen beim Deployment der Erkennung kleiner Objekte. Bild vom Autor.

Hardwareentscheidungen spielen eine Schlüsselrolle beim Management dieser Kompromisse. Leistungsstärkere GPUs erlauben größere Modelle und schnellere Verarbeitung, aber Deployment-Umgebungen, insbesondere Edge-Geräte, haben oft begrenzte Rechen- und Speicherressourcen.

Echtzeitanwendungen fügen eine weitere Einschränkung hinzu: Die Aufrechterhaltung einer niedrigen Latenz erfordert möglicherweise eine Verringerung der Modellgröße oder der Eingangsauflösung, was sich negativ auf den Recall kleiner Objekte auswirken kann. Letztendlich erfordern Deployment-Entscheidungen das Abwägen von Erkennungsleistung gegen Hardwarebeschränkungen, Geschwindigkeitsanforderungen und Gesamtkosten.

Link to this sectionAlles zusammengefügt: Das Modell-mAP bei kleinen Objekten verbessern#

Die Verbesserung der Erkennung kleiner Objekte erfordert einen praktischen und strukturierten Ansatz, insbesondere wenn du in realen Umgebungen arbeitest. Hier ist ein Überblick über die wichtigsten Schritte, die du im Hinterkopf behalten solltest:

Prüfe deine Datensatzqualität: Stelle sicher, dass dein Datensatz genügend Beispiele für kleine Objekte enthält, nach Möglichkeit hochauflösende Bilder verwendet und die Bedingungen widerspiegelt, unter denen das Modell eingesetzt wird.
Überprüfe die Annotationskonsistenz: Stelle sicher, dass Bounding Boxes korrekt, vollständig und konsistent gelabelt sind. Inkonsistente Annotationen können die Lokalisierungsleistung direkt einschränken.
Passe Trainingseinstellungen gezielt an: Justiere Batch-Größe, Anzahl der Epochen und Optimierungseinstellungen wohlüberlegt, damit kleine Objekte während des Trainings angemessen repräsentiert sind.
Iteriere Schritt für Schritt: Nimm kontrollierte Anpassungen vor, messe deren Auswirkung und verfeinere deinen Ansatz. Stetige, datengesteuerte Iteration führt mit der Zeit zu konsistenten Verbesserungen.

Link to this sectionWichtige Erkenntnisse#

Die Verbesserung des mAP für kleine Objekte erfordert einen strukturierten, datengesteuerten Ansatz anstelle von zufälligen Optimierungen. Echte Verbesserungen kommen durch die Kombination aus guten Daten, konsistenten Annotationen, sorgfältigem Training und den richtigen Evaluierungsmethoden. Bei realen Projekten führen stetiges Testen und kleine, messbare Änderungen langfristig zu einer besseren und zuverlässigeren Erkennung kleiner Objekte.

Werde Teil unserer wachsenden Community und erkunde unser GitHub-Repository für praxisnahe KI-Ressourcen. Um noch heute mit Vision-KI zu bauen, erkunde unsere Lizenzoptionen. Erfahre, wie KI in der Landwirtschaft die Landwirtschaft verändert und wie Vision-KI in der Robotik die Zukunft gestaltet, indem du unsere Lösungsseiten besuchst.