Der ultimative Leitfaden zur Datenerweiterung im Jahr 2025

Abirami Vina

6 Minuten lesen

14. Februar 2025

Erfahren Sie, wie die Erweiterung von Bilddaten den Vision AI-Modellen hilft, besser zu lernen, die Genauigkeit zu erhöhen und in realen Situationen effektiver zu arbeiten.

Aufgrund des KI-Booms machen Phänomene wie Roboter, die in Fabriken arbeiten, und selbstfahrende Autos, die durch die Straßen navigieren, immer häufiger Schlagzeilen. KI verändert die Art und Weise, wie Maschinen mit der Welt interagieren, von der Verbesserung der medizinischen Bildgebung bis hin zur Unterstützung der Qualitätskontrolle an Produktionslinien.

Ein großer Teil dieses Fortschritts stammt aus der Computer Vision, einem Zweig der KI, der es Maschinen ermöglicht, Bilder zu verstehen und zu interpretieren. So wie Menschen mit der Zeit lernen, Objekte und Muster zu erkennen, müssen KI-Modelle wie Ultralytics YOLO11 auf großen Mengen von Bilddaten trainiert werden, um ihr visuelles Verständnis zu entwickeln.

Es ist jedoch nicht immer einfach, eine so große Menge an visuellen Daten zu sammeln. Auch wenn die Computer-Vision-Gemeinschaft viele große Datensätze erstellt hat, können sie immer noch bestimmte Variationen vermissen - wie Bilder mit Objekten bei schwachem Licht, teilweise verdeckte Objekte oder Dinge, die aus verschiedenen Winkeln betrachtet werden. Diese Unterschiede können für Computer-Vision-Modelle, die nur auf bestimmte Bedingungen trainiert wurden, verwirrend sein.

Die Bilddatenerweiterung ist eine Technik, die dieses Problem löst, indem sie neue Variationen in bestehende Daten einführt. Durch Änderungen an Bildern, wie z. B. das Anpassen von Farben, Drehen oder Verschieben der Perspektive, wird der Datensatz vielfältiger und hilft den KI-Modellen, Objekte in realen Situationen besser zu erkennen.

In diesem Artikel erfahren Sie, wie die Bilddatenerweiterung funktioniert und welche Auswirkungen sie auf Computer-Vision-Anwendungen haben kann.

Was ist eine Bilddatenerweiterung?

Angenommen, Sie versuchen, einen Freund in einer Menschenmenge zu erkennen, aber er trägt eine Sonnenbrille oder steht an einem schattigen Platz. Selbst bei diesen geringfügigen Veränderungen im Aussehen wissen Sie immer noch, wer es ist. Ein KI-Modell für die Bildverarbeitung hingegen hat mit solchen Veränderungen zu kämpfen, es sei denn, es wurde darauf trainiert, Objekte in unterschiedlichen Umgebungen zu erkennen.

Die Bilddatenerweiterung verbessert die Leistung von Computer-Vision-Modellen, indem modifizierte Versionen bestehender Bilder zu den Trainingsdaten hinzugefügt werden, anstatt Tausende neuer Bilder zu sammeln. 

Durch Änderungen an Bildern wie Spiegeln, Drehen, Anpassen der Helligkeit oder Hinzufügen kleiner Verzerrungen werden die KI-Modelle einer größeren Bandbreite von Bedingungen ausgesetzt. Anstatt sich auf große Datensätze zu verlassen, können Modelle effizient aus kleineren Trainingsdatensätzen mit erweiterten Bildern lernen. 

__wf_reserved_inherit
Abb. 1. Beispiele für augmentierte Bilder eines Autos.

Die Bedeutung der Datenerweiterung in der Computer Vision

Im Folgenden werden einige der wichtigsten Gründe genannt, warum Augmentierungen für die Computer Vision unerlässlich sind:

  • Reduziert den Datenbedarf: Das Sammeln großer Bilddatensätze erfordert Zeit und Ressourcen. Mit Augmentierungen können Modelle effektiv trainiert werden, ohne dass große Datensätze benötigt werden.
  • Verhindert Überanpassung: Ein Modell, das mit zu wenigen Beispielen trainiert wurde, merkt sich möglicherweise Details, anstatt allgemeine Muster zu erkennen. Durch die Erweiterung der Vielfalt wird sichergestellt, dass die KI-Modelle von Vision so lernen, dass sie auch auf neue und ungesehene Daten anwendbar sind.
  • Imitiert unvollkommene Bilder: Bilder in Datensätzen sind oft zu perfekt, aber Fotos aus der realen Welt können verschwommen, verdeckt oder verzerrt sein. Das Anreichern von Bildern mit Rauschen, Verdeckungen oder anderen Variationen macht sie realistischer.
  • Verbessert die Robustheit des Modells: Das Training mit einer Vielzahl von Bildern hilft der KI, mit realen Veränderungen umzugehen, und macht sie in verschiedenen Umgebungen, Lichtverhältnissen und Situationen zuverlässiger.

Wann sollten Sie die Bilddatenerweiterung nutzen?

Die Vergrößerung von Bilddaten ist besonders hilfreich, wenn ein Computer-Vision-Modell Objekte in verschiedenen Situationen erkennen muss, aber nicht über genügend unterschiedliche Bilder verfügt. 

Wenn Forscher beispielsweise ein Bildverarbeitungsmodell trainieren, um seltene Unterwasserarten zu identifizieren, die nur selten fotografiert werden, kann der Datensatz klein sein oder wenig Variation aufweisen. Durch Anreicherung der Bilder - Anpassung der Farben, um unterschiedliche Wassertiefen zu simulieren, Hinzufügen von Rauschen, um trübe Bedingungen zu imitieren, oder leichte Veränderung der Formen, um natürliche Bewegungen zu berücksichtigen - kann das Modell lernen, Unterwasserobjekte genauer zu erkennen .

Hier sind einige andere Situationen, in denen die Vergrößerung einen großen Unterschied macht:

  • Ausgewogenheit des Datensatzes: Einige Objekte kommen in den Trainingsdaten seltener vor, wodurch Vision AI-Modelle verzerrt werden. Die Erweiterung hilft dabei, mehr Beispiele für seltene Objekte zu erstellen, damit das Modell alle Kategorien gleichmäßig erkennen kann.
  • Anpassen an verschiedene Kameras: Bilder können je nach Gerät unterschiedlich aussehen. Die Augmentierung hilft den Vision AI-Modellen, Fotos mit unterschiedlichen Auflösungen, Lichtverhältnissen und Qualitäten gut zu verarbeiten.
  • Korrigieren kleiner Beschriftungsfehler: Leichte Verschiebungen, Beschneidungen oder Drehungen helfen den Bildverarbeitungsmodellen, Objekte richtig zu erkennen, selbst wenn die ursprünglichen Beschriftungen nicht perfekt ausgerichtet sind.

Wie die Bilddatenerweiterung funktioniert

In den Anfängen der Computer Vision umfasste die Anreicherung von Bilddaten in erster Linie grundlegende Bildverarbeitungstechniken wie Spiegeln, Drehen und Zuschneiden, um die Vielfalt der Datensätze zu erhöhen. Mit der Verbesserung der KI wurden fortschrittlichere Methoden eingeführt, wie z. B. die Anpassung von Farben (Farbraumtransformationen), das Schärfen oder Weichzeichnen von Bildern (Kernel-Filter) und das Zusammenfügen mehrerer Bilder (Bildmischung), um das Lernen zu verbessern.

Die Erweiterung kann vor und während der Modellschulung erfolgen. Vor dem Training können dem Datensatz veränderte Bilder hinzugefügt werden, um für mehr Abwechslung zu sorgen. Während des Trainings können Bilder in Echtzeit nach dem Zufallsprinzip verändert werden, damit sich die KI-Modelle an unterschiedliche Bedingungen anpassen können.

Diese Änderungen werden durch mathematische Transformationen vorgenommen. Durch Drehen wird ein Bild beispielsweise gekippt, durch Beschneiden werden Teile entfernt, um verschiedene Ansichten zu imitieren, und durch Helligkeitsänderungen werden Beleuchtungsunterschiede simuliert. Durch Unschärfen werden Bilder weicher, durch Schärfen werden Details deutlicher, und durch Mischen von Bildern werden Teile verschiedener Bilder kombiniert. KI-Frameworks und -Werkzeuge wie OpenCV, TensorFlow und PyTorch können diese Prozesse automatisieren, sodass die Augmentierung schnell und effektiv ist.

Wichtige Techniken zur Erweiterung von Bilddaten

Nachdem wir nun erörtert haben, was Bilddatenanreicherung ist, wollen wir uns einige grundlegende Techniken zur Bilddatenanreicherung genauer ansehen, die zur Verbesserung von Trainingsdaten eingesetzt werden.

Einstellen von Ausrichtung und Position

Computer-Vision-Modelle wie YOLO11 müssen oft Objekte aus verschiedenen Winkeln und Blickwinkeln erkennen. Zu diesem Zweck können Bilder horizontal oder vertikal gespiegelt werden, damit das KI-Modell lernt, Objekte aus verschiedenen Blickwinkeln zu erkennen. 

Auch das Drehen von Bildern verändert deren Winkel geringfügig und ermöglicht es dem Modell, Objekte aus verschiedenen Perspektiven zu erkennen. Auch das Verschieben von Bildern in verschiedene Richtungen (Translation) hilft den Modellen, sich an kleine Positionsveränderungen anzupassen. Durch diese Transformationen wird sichergestellt, dass die Modelle besser an reale Bedingungen angepasst werden können, bei denen die Platzierung von Objekten in einem Bild nicht vorhersehbar ist.

__wf_reserved_inherit
Abb. 2. Verschiedene orientierungs- und positionsbezogene Augmentationsmethoden.

Größenänderung und Zuschneiden

Bei realen Computer-Vision-Lösungen können Objekte in Bildern in unterschiedlichen Entfernungen und Größen erscheinen. KI-Modelle müssen robust genug sein, um sie unabhängig von diesen Unterschieden zu erkennen. 

Um die Anpassungsfähigkeit zu verbessern, können die folgenden Erweiterungsmethoden eingesetzt werden:

  • Skalieren: Die Skalierung ändert die Bildgröße unter Beibehaltung der Proportionen, so dass KI-Modelle Objekte in unterschiedlichen Entfernungen erkennen können.
  • Zuschneiden: Dabei werden unnötige Teile eines Bildes entfernt, damit sich das Modell auf die wichtigsten Bereiche konzentrieren kann und der Hintergrund weniger störend wirkt.
  • Scheren: Das leichte Scheren eines Bildes simuliert ein gekipptes oder gestrecktes Erscheinungsbild und hilft der KI, Objekte aus verschiedenen Winkeln zu erkennen.

Diese Anpassungen helfen den Computer-Vision-Modellen, Objekte zu erkennen, auch wenn sich ihre Größe oder Form leicht verändert.

Anpassung von Perspektive und Verzerrung

Objekte in Bildern können je nach Kamerawinkel unterschiedlich erscheinen, was die Erkennung für Computer-Vision-Modelle erschwert. Um den Modellen zu helfen, mit diesen Variationen umzugehen, können Augmentierungsverfahren die Darstellung von Objekten in Bildern anpassen. 

So können beispielsweise perspektivische Transformationen den Blickwinkel verändern, so dass ein Objekt so aussieht, als würde es aus einer anderen Position betrachtet. So können Vision AI-Modelle Objekte auch dann erkennen, wenn sie geneigt sind oder aus einem ungewöhnlichen Blickwinkel aufgenommen wurden. 

Ein weiteres Beispiel ist eine elastische Transformation, bei der Bilder gestreckt, gebogen oder verzerrt werden, um natürliche Verzerrungen zu simulieren, so dass Objekte so erscheinen, wie sie in Spiegelungen oder unter Druck erscheinen würden. 

Änderungen bei Farbe und Beleuchtung

Beleuchtungsbedingungen und Farbunterschiede können sich erheblich darauf auswirken, wie Vision AI-Modelle Bilder interpretieren. Da Objekte unter verschiedenen Beleuchtungseinstellungen unterschiedlich erscheinen können, können die folgenden Augmentierungstechniken helfen, diese Situationen zu bewältigen:

  • Anpassung von Helligkeit und Kontrast: Die Simulation verschiedener Lichtverhältnisse hilft den Vision AI-Modellen, Objekte sowohl in hellen als auch in dunklen Umgebungen zu erkennen.
  • Farbflimmern: Die zufällige Änderung von Farbton, Sättigung und Farbbalance macht Computer-Vision-Modelle anpassungsfähiger an unterschiedliche Kameras und Lichtverhältnisse.
  • Graustufen-Konvertierung: Durch die Konvertierung von Bildern in Schwarz-Weiß werden die Vision AI-Modelle dazu angeregt, sich auf Formen und Texturen zu konzentrieren, anstatt auf Farben.
__wf_reserved_inherit
Abb. 3. Beispiele für Erweiterungen, die sich auf Farbvariationen beziehen.

Fortgeschrittene Techniken zur Bilddatenerweiterung

Bisher haben wir uns nur mit Augmentierungsverfahren beschäftigt, die ein einzelnes Bild verändern. Bei einigen fortgeschrittenen Methoden werden jedoch mehrere Bilder kombiniert, um das KI-Lernen zu verbessern.

MixUp zum Beispiel fügt zwei Bilder zusammen und hilft Computer-Vision-Modellen, Objektbeziehungen zu verstehen und ihre Fähigkeit zur Verallgemeinerung in verschiedenen Szenarien zu verbessern. CutMix geht noch einen Schritt weiter, indem es einen Teil eines Bildes durch einen Teil eines anderen Bildes ersetzt, so dass die Modelle aus mehreren Kontexten innerhalb desselben Bildes lernen können. CutOut hingegen arbeitet anders, indem es zufällige Teile eines Bildes entfernt und die KI-Modelle von Vision darauf trainiert, Objekte auch dann zu erkennen, wenn sie teilweise verdeckt oder verdeckt sind.

__wf_reserved_inherit
Abb. 4. Fortgeschrittene Techniken zur Bilddatenerweiterung.

Die Rolle der generativen KI bei der Anreicherung von Bilddaten

Generative KI gewinnt in vielen Branchen und Alltagsanwendungen an Bedeutung. Wahrscheinlich haben Sie schon einmal von KI-generierten Bildern, Deepfake-Videos oder Apps gehört, die realistische Avatare erstellen. Aber über Kreativität und Unterhaltung hinaus spielt die generative KI eine entscheidende Rolle beim Training von Vision-KI-Modellen, indem sie neue Bilder aus vorhandenen Bildern generiert.

Anstatt Bilder einfach nur zu drehen oder zu spiegeln, können realistische Variationen erzeugt werden, indem Gesichtsausdrücke und Kleidungsstile verändert oder sogar unterschiedliche Wetterbedingungen simuliert werden. Diese Variationen tragen dazu bei, dass Computer-Vision-Modelle in verschiedenen realen Szenarien anpassungsfähiger und genauer werden. Fortgeschrittene generative KI-Modelle wie GANs (Generative Adversarial Networks) und Diffusionsmodelle können auch fehlende Details ergänzen oder hochwertige synthetische Bilder erstellen.

Beschränkungen der Bilddatenerweiterung

Die Datenerweiterung verbessert zwar die Trainingsdatensätze, aber es gibt auch einige Einschränkungen zu beachten. Hier sind einige der wichtigsten Herausforderungen im Zusammenhang mit der Erweiterung von Bilddaten:

  • Begrenzte Datenvielfalt: Erweiterte Bilder stammen aus bestehenden Daten und können keine völlig neuen Muster oder seltenen Perspektiven einbringen.
  • Potenzielle Datenverzerrung: Übermäßige Transformationen können Bilder unrealistisch machen, was die Modellgenauigkeit in realen Szenarien verringern kann.
  • Erhöhter Rechenaufwand: Die Echtzeit-Erweiterung, die während des Modelltrainings stattfindet, kann eine Menge Rechenleistung erfordern, was das Training verlangsamt und den Speicherbedarf erhöht.
  • Das Ungleichgewicht der Klassen bleibt bestehen: Durch die Erweiterung werden keine völlig neuen Stichproben erstellt, so dass unterrepräsentierte Kategorien immer noch zu verzerrtem Lernen führen können.

Eine reale Anwendung der Bilddatenerweiterung

Eine interessante Anwendung der Bilddatenerweiterung sind selbstfahrende Autos, bei denen es auf Sekundenbruchteile ankommt, die von Computer-Vision-Modellen wie YOLO11 getroffen werden. Das Modell muss in der Lage sein, Straßen, Menschen und andere Objekte genau zu erkennen.

Die realen Bedingungen, auf die ein selbstfahrendes Fahrzeug trifft, können jedoch unvorhersehbar sein. Schlechtes Wetter, Bewegungsunschärfe und versteckte Schilder können KI-Lösungen in diesem Bereich komplex machen. Das Trainieren von Bildverarbeitungsmodellen mit Bildern aus der realen Welt ist oft nicht ausreichend. Die Bilddatensätze für die Modelle in selbstfahrenden Autos müssen vielfältig sein, damit das Modell lernen kann, mit unerwarteten Situationen umzugehen.

Die Bilddatenerweiterung löst dieses Problem durch die Simulation von Nebel, die Anpassung der Helligkeit und die Verzerrung von Formen. Diese Änderungen helfen den Modellen, Objekte unter verschiedenen Bedingungen zu erkennen. Dadurch werden die Modelle intelligenter und zuverlässiger. 

Mit erweitertem Training passen sich Vision-KI-Lösungen in selbstfahrenden Autos besser an und treffen sicherere Entscheidungen. Genauere Ergebnisse bedeuten weniger Unfälle und eine bessere Navigation. 

__wf_reserved_inherit
Abb. 5. Ein Beispiel für die Anreicherung von Bilddaten im Hinblick auf selbstfahrende Autos.

Selbstfahrende Autos sind nur ein Beispiel dafür. Tatsächlich ist die Bilddatenerweiterung in einer Vielzahl von Sektoren von entscheidender Bedeutung, von der medizinischen Bildgebung bis zur Einzelhandelsanalytik. Jede Anwendung, die sich auf Computer Vision stützt, kann potenziell von der Bilddatenerweiterung profitieren.

Die wichtigsten Erkenntnisse

KI-Systeme müssen in der Lage sein, Objekte unter verschiedenen Bedingungen zu erkennen, aber es kann schwierig sein, endlose Bilder aus der realen Welt für das Training zu sammeln. Die Bilddatenerweiterung löst dieses Problem, indem sie Variationen vorhandener Bilder erstellt, damit die Modelle schneller lernen und in realen Situationen besser funktionieren. Sie verbessert die Genauigkeit und stellt sicher, dass KI-Modelle wie YOLO11 mit unterschiedlichen Lichtverhältnissen, Winkeln und Umgebungen umgehen können.

Für Unternehmen und Entwickler spart die Bilddatenerweiterung Zeit und Aufwand und macht Computer-Vision-Modelle zuverlässiger. Vom Gesundheitswesen bis hin zu selbstfahrenden Autos sind viele Branchen davon abhängig. Mit der Weiterentwicklung von Vision AI wird die Augmentation auch in Zukunft ein wesentlicher Bestandteil der Entwicklung intelligenter und anpassungsfähiger Modelle sein.

Werden Sie Teil unserer Community und besuchen Sie unser GitHub-Repository, um KI in Aktion zu erleben. Entdecken Sie unsere Lizenzierungsoptionen und erfahren Sie mehr über KI in der Landwirtschaft und Computer Vision in der Fertigung auf unseren Lösungsseiten.

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert