Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Verbessern Sie die Robustheit von KI-Modellen durch Datenanreicherung

Erfahren Sie, wie die Ergänzung von Trainingsdaten durch realistische Variationen mittels Datenvergrößerung dazu beiträgt, die Robustheit von KI-Modellen und ihre Leistungsfähigkeit in der Praxis zu verbessern.

Das Testen ist ein wesentlicher Bestandteil der Entwicklung jeder technologischen Lösung. Es zeigt den Teams, wie ein System tatsächlich funktioniert, bevor es in Betrieb genommen wird, und ermöglicht ihnen, Probleme frühzeitig zu beheben. Dies gilt für viele Bereiche, darunter auch die KI, wo von den Modellen erwartet wird, dass sie nach ihrer Einführung mit unvorhersehbaren realen Bedingungen zurechtkommen.

Beispielsweise ist Computer Vision ein Zweig der KI, der Maschinen beibringt, Bilder und Videos zu verstehen. Computer-Vision-Modelle wie Ultralytics unterstützen Aufgaben wie Objekterkennung, Instanzsegmentierung und Bildklassifizierung.

Sie können in vielen Branchen für Anwendungen wie Patientenüberwachung, Verkehrsanalyse, automatisierte Kassenabfertigung und Qualitätskontrolle in der Fertigung eingesetzt werden. Doch selbst mit fortschrittlichen Modellen und hochwertigen Trainingsdaten können Vision-KI-Lösungen immer noch Probleme haben, wenn sie mit realen Variablen wie wechselnden Lichtverhältnissen, Bewegungen oder teilweise verdeckten Objekten konfrontiert werden.

Dies geschieht, weil Modelle aus den Beispielen lernen, die ihnen während des Trainings gegeben werden. Wenn sie Bedingungen wie Blendung, Bewegungsunschärfe oder teilweise Sichtbarkeit zuvor noch nicht gesehen haben, ist es weniger wahrscheinlich, dass sie Objekte in solchen Szenarien korrekt erkennen.

Eine Möglichkeit, die Robustheit des Modells zu verbessern, ist die Datenvergrößerung. Anstatt große Mengen neuer Daten zu sammeln, können Ingenieure kleine und sinnvolle Änderungen an vorhandenen Bildern vornehmen, z. B. die Beleuchtung anpassen, Bilder zuschneiden oder mischen. Dadurch lernt das Modell, dieselben Objekte in einer größeren Bandbreite von Situationen zu erkennen.

In diesem Artikel untersuchen wir, wie Datenvergrößerung die Robustheit von Modellen und die Zuverlässigkeit von Vision-KI-Systemen verbessert, wenn diese außerhalb kontrollierter Umgebungen eingesetzt werden. Los geht's!

Wie man die Robustheit eines Modells überprüft

Bevor wir uns mit der Datenvergrößerung befassen, wollen wir zunächst klären, wie man feststellen kann, ob ein Computer-Vision-Modell wirklich für den Einsatz in der Praxis bereit ist. 

Ein robustes Modell funktioniert auch dann noch gut, wenn sich die Bedingungen ändern, und nicht nur bei sauberen, perfekt beschrifteten Bildern. Hier sind einige praktische Faktoren, die bei der Bewertung der Robustheit eines KI-Modells zu berücksichtigen sind:

  • Änderungen der Beleuchtung: Modelle können sich unter hellem Licht, schwachem Licht, Blendung oder Schatten unterschiedlich verhalten, was sich auf die Zuverlässigkeit der Objekterkennung auswirken kann.
  • Teilweise Verdeckung: In alltäglichen Situationen werden Objekte oft von anderen Gegenständen verdeckt oder sind nur teilweise sichtbar. Ein robusteres Modell ist in der Lage, sie auch bei fehlenden visuellen Informationen zu erkennen.
  • Überfüllte Szenen: Umgebungen mit vielen sich überlappenden Objekten können die Erkennung erschweren. Modelle, die in solchen Fällen gut funktionieren, sind in komplexen Umgebungen in der Regel zuverlässiger.

Gute Ergebnisse bei sauberen, perfekt aufgenommenen Bildern lassen sich nicht immer auf eine starke Leistung in der Praxis übertragen. Regelmäßige Tests unter verschiedenen Bedingungen helfen dabei, zu zeigen, wie gut sich ein Modell nach seiner Einführung bewährt.

Was ist Datenvergrößerung?

Die Darstellung eines Objekts auf einem Foto kann sich je nach Beleuchtung, Winkel, Entfernung oder Hintergrund ändern. Wenn ein Computer-Vision-Modell trainiert wird, muss der Datensatz, aus dem es lernt, diese Art von Variationen enthalten, damit es in unvorhersehbaren Umgebungen gut funktionieren kann.

Die Datenvergrößerung erweitert einen Trainingsdatensatz, indem sie zusätzliche Beispiele aus den bereits vorhandenen Bildern erstellt. Dies geschieht durch gezielte Änderungen wie Drehen oder Spiegeln eines Bildes, Anpassen der Helligkeit oder Zuschneiden eines Teils davon. 

Stellen Sie sich beispielsweise vor, Sie hätten nur ein einziges Foto einer Katze. Wenn Sie das Bild drehen oder seine Helligkeit ändern, können Sie aus diesem einen Bild mehrere neue Versionen erstellen. Jede Version sieht etwas anders aus, aber es handelt sich immer noch um ein Foto derselben Katze. Diese Variationen helfen dem Modell zu lernen, dass ein Objekt unterschiedlich aussehen kann, obwohl es immer noch dasselbe ist.

Abb. 1: Ein Blick auf die Erweiterung eines Katzenbildes (Quelle)

Wie Datenanreicherung die Modellleistung verbessert

Während des Modelltrainings kann die Datenvergrößerung direkt in die Trainingspipeline integriert werden. Anstatt manuell neue Kopien von Bildern zu erstellen und zu speichern, können beim Laden jedes Bildes zufällige Transformationen angewendet werden. 

Das bedeutet, dass das Modell jedes Mal eine leicht veränderte Version des Bildes sieht, sei es heller, gespiegelt oder teilweise verdeckt. Techniken wie das zufällige Löschen können sogar kleine Bereiche des Bildes entfernen, um reale Situationen zu simulieren, in denen ein Objekt verdeckt oder nur teilweise sichtbar ist.

Abb. 2: Beispiele für eine auf zufälligem Löschen basierende Erweiterung (Quelle)

Durch das Betrachten vieler verschiedener Versionen desselben Bildes kann das Modell lernen, welche Merkmale wichtig sind, anstatt sich auf ein einziges perfektes Beispiel zu verlassen. Diese Vielfalt sorgt für die Robustheit des KI-Modells, sodass es unter realen Bedingungen zuverlässiger arbeiten kann.

Gängige Techniken zur Datenanreicherung

Hier sind einige Techniken zur Datenvergrößerung, die verwendet werden, um Variationen in Trainingsbilder einzuführen:

  • Geometrische Transformationen: Diese Techniken verändern die räumliche Darstellung eines Objekts innerhalb eines Bildes. Durch Drehen, Spiegeln, Skalieren, Zuschneiden oder Verschieben eines Bildes kann das Modell verstehen, wie ein Objekt aus verschiedenen Blickwinkeln oder Entfernungen betrachtet werden kann.
  • Farben und Beleuchtung anpassen: In der Realität ist die Beleuchtung selten gleichmäßig. Bilder können je nach Umgebung oder verwendeter Kamera zu hell, zu dunkel oder farblich leicht verfälscht sein. Durch Anpassen von Helligkeit, Kontrast, Farbton und Sättigung können Modelle diese visuellen Veränderungen ausgleichen und in verschiedenen Szenen gut funktionieren.
  • Bildqualitätsabweichungen: Unschärfe oder Bildrauschen können Bilder unklar erscheinen lassen. Durch Hinzufügen von Unschärfe oder Rauschen während des Trainings lernt das Modell, mit Bewegungsunschärfe, Bildern bei schlechten Lichtverhältnissen oder Kameraergebnissen geringerer Qualität umzugehen, sodass es weniger empfindlich auf unvollkommene Bilddarstellungen reagiert.
  • Okklusionsbasierte Erweiterungen: In realen Umgebungen werden Objekte häufig teilweise von anderen Objekten verdeckt. Dies wird als Bildokklusion bezeichnet. Das Ausblenden oder Maskieren kleiner Bereiche eines Bildes während des Trainings unterstützt das Modell dabei, detect auch dann zu detect , wenn nur ein Teil davon sichtbar ist.
  • Multi-Image-Erweiterungen: Diese Techniken kombinieren Teile mehrerer Bilder zu einem einzigen Trainingsbeispiel, wodurch die Anzahl der Objekte im Blickfeld erhöht und die Fähigkeit des Modells verbessert werden kann, komplexe oder überfüllte Szenen zu verarbeiten.
Abb. 3: Beispiel für eine Multi-Image-Erweiterung (Quelle)

Datenanreicherung leicht gemacht mit demPython

Das Verwalten von Datensätzen, das Erstellen von Bildvariationen und das Schreiben von Transformationscode können zusätzliche Schritte beim Erstellen einer Computer-Vision-Anwendung erfordern. Das Ultralytics Python vereinfacht dies, indem es eine einzige Schnittstelle für das Trainieren, Ausführen und Bereitstellen von Ultralytics YOLO wie YOLO26 bereitstellt. Im Rahmen dieser Bemühungen zur Optimierung der Trainings-Workflows enthält das Paket integrierte, Ultralytics Datenaugmentierungen, die für YOLO optimiert sind.

Es unterstützt auch nützliche Integrationen, die separate Tools oder benutzerdefinierten Code überflüssig machen. Insbesondere für die Datenvergrößerung lässt sich das Paket in Albumentations integrieren, eine weit verbreitete Bibliothek zur Bildvergrößerung. Diese Integration ermöglicht es, Vergrößerungen während des Trainings automatisch anzuwenden, ohne dass zusätzliche Skripte oder benutzerdefinierter Code erforderlich sind.

Verwaltung von Anmerkungen und erweiterten Datensätzen

Ein weiterer Faktor, der sich auf die Robustheit des Modells auswirkt, ist die Qualität der Annotationen. Saubere, genaue Beschriftungen, die mit Annotationstools wie Roboflow erstellt und verwaltet werden, helfen dem Modell zu verstehen, wo sich Objekte befinden und wie sie aussehen.

Während des Trainings werden Datenerweiterungen wie Spiegelungen, Ausschnitte und Drehungen dynamisch angewendet, und Annotationen werden automatisch an diese Änderungen angepasst. Wenn die Beschriftungen präzise sind, funktioniert dieser Prozess reibungslos und liefert dem Modell viele realistische Beispiele derselben Szene.

Wenn Annotationen ungenau oder inkonsistent sind, können diese Fehler in allen augmentierten Bildern wiederholt auftreten, was die Effektivität des Trainings beeinträchtigen kann. Durch die Verwendung genauer Annotationen von Anfang an wird die Ausbreitung dieser Fehler verhindert und die Robustheit des Modells verbessert.

Verbesserung von Vision-KI-Anwendungen durch Datenanreicherung

Als Nächstes sehen wir uns Beispiele dafür an, wie Datenvergrößerung zur Robustheit von KI-Modellen in realen Anwendungen beiträgt.

Verbesserung der Genauigkeit der Objekterkennung in realen Umgebungen

Synthetische Bilder werden häufig zum Trainieren von Objekterkennungssystemen verwendet, wenn reale Daten begrenzt, sensibel oder schwer zu sammeln sind. Mit ihnen können Teams schnell Beispiele für Produkte, Umgebungen und Kamerawinkel generieren, ohne jedes Szenario im realen Leben erfassen zu müssen. 

Synthetische Datensätze können jedoch im Vergleich zu realen Aufnahmen manchmal zu sauber wirken, da diese Lichtveränderungen, sich überlappende Objekte und unübersichtliche Hintergründe enthalten. Die Datenvergrößerung hilft, diese Lücke zu schließen, indem sie realistische Variationen wie unterschiedliche Beleuchtung, Geräusche oder Objektplatzierungen einführt, sodass das Modell lernt, mit den Bedingungen umzugehen, denen es bei seiner Einsatzes konfrontiert sein wird.

In einer aktuellen Studie wurde beispielsweise ein YOLO11 ausschließlich mit synthetischen Bildern trainiert und durch Datenvergrößerung um zusätzliche Variationen ergänzt. Dies trug dazu bei, dass das Modell lernte, Objekte umfassender zu erkennen. Bei Tests mit realen Bildern erzielte es gute Ergebnisse, obwohl es während des Trainings nie mit Daten aus der realen Welt konfrontiert worden war.

Medizinische Bildgebungslösungen zuverlässiger machen

Medizinische Bilddatensätze sind oft begrenzt, und die Scans selbst können je nach Gerätetyp, Bildeinstellungen oder klinischer Umgebung variieren. Unterschiede in der Anatomie der Patienten, den Blickwinkeln, der Beleuchtung oder visuellen Störungen können es für Computer-Vision-Modelle schwierig machen, Muster zu lernen, die sich gut auf alle Patienten und Krankenhäuser übertragen lassen.

Die Datenvergrößerung hilft dabei, indem sie während des Trainings mehrere Variationen desselben Scans erstellt, z. B. durch Hinzufügen von Rauschen, leichtes Verschieben des Bildes oder Anwenden kleiner Verzerrungen. Durch diese Änderungen wirken die Trainingsdaten repräsentativer für reale klinische Bedingungen.

In einer pädiatrischen Bildgebungsstudie verwendeten Forscher beispielsweise YOLO11 die anatomische Segmentierung und trainierten es mit erweiterten medizinischen Daten. Sie führten Variationen wie zusätzliches Rauschen, leichte Positionsverschiebungen und kleine Verzerrungen ein, um die Bilder realistischer zu gestalten.

Abb. 4: Original- und augmentierte medizinische Bilder aus der Pädiatrie (Quelle)

Durch das Lernen aus diesen Abweichungen konzentrierte sich das Modell auf aussagekräftige anatomische Merkmale statt auf oberflächliche Unterschiede. Dadurch wurden die Segmentierungsergebnisse über verschiedene Scans und Patientenfälle hinweg stabiler.

Wesentliche Erkenntnisse

Das Sammeln vielfältiger Daten ist schwierig, aber durch Datenvergrößerung können Modelle aus einem breiteren Spektrum visueller Bedingungen lernen. Dies führt zu einer höheren Robustheit der Modelle im Umgang mit Verdeckungen, Lichtveränderungen und überfüllten Szenen. Insgesamt hilft dies ihnen, außerhalb kontrollierter Trainingsumgebungen zuverlässiger zu arbeiten. 

Werden Sie Teil unserer Community und erkunden Sie die neuesten Entwicklungen im Bereich Vision AI in unserem GitHub-Repository. Besuchen Sie unsere Lösungsseiten, um zu erfahren, wie Anwendungen wie KI in der Fertigung und Computer Vision im Gesundheitswesen den Fortschritt vorantreiben, und informieren Sie sich über unsere Lizenzierungsoptionen für Ihre nächste KI-Lösung.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten