Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Der ultimative Leitfaden zur Datenerweiterung im Jahr 2025

Abirami Vina

6 Minuten Lesezeit

14. Februar 2025

Finden Sie heraus, wie Bilddatenaugmentation Vision-KI-Modellen hilft, besser zu lernen, die Genauigkeit zu verbessern und in realen Situationen effektiver zu arbeiten.

Aufgrund des KI-Booms machen Phänomene wie Roboter, die in Fabriken arbeiten, und selbstfahrende Autos, die durch die Straßen navigieren, immer häufiger Schlagzeilen. KI verändert die Art und Weise, wie Maschinen mit der Welt interagieren, von der Verbesserung der medizinischen Bildgebung bis hin zur Unterstützung der Qualitätskontrolle in Produktionslinien.

Ein großer Teil dieses Fortschritts ist auf Computer Vision zurückzuführen, einem Zweig der KI, der es Maschinen ermöglicht, Bilder zu verstehen und zu interpretieren. So wie Menschen im Laufe der Zeit lernen, Objekte und Muster zu erkennen, müssen Vision-KI-Modelle wie Ultralytics YOLO11 mit großen Mengen an Bilddaten trainiert werden, um ihr visuelles Verständnis zu entwickeln.

Allerdings ist das Sammeln einer so großen Menge an visuellen Daten nicht immer einfach. Auch wenn die Computer-Vision-Community viele große Datensätze erstellt hat, können diese immer noch bestimmte Variationen übersehen - wie z. B. Bilder mit Objekten bei schwachem Licht, teilweise versteckte Objekte oder Dinge, die aus verschiedenen Blickwinkeln betrachtet werden. Diese Unterschiede können für Computer-Vision-Modelle verwirrend sein, die nur unter bestimmten Bedingungen trainiert wurden.

Datenerweiterung für Bilder ist eine Technik, die dieses Problem löst, indem sie neue Variationen in bestehende Daten einführt. Durch Änderungen an Bildern, wie z. B. Anpassen von Farben, Drehen oder Verschieben der Perspektive, wird der Datensatz vielfältiger, was Vision AI-Modellen hilft, Objekte in realen Situationen besser zu erkennen.

In diesem Artikel werden wir untersuchen, wie Bilddatenaugmentation funktioniert und welche Auswirkungen sie auf Computer-Vision-Anwendungen haben kann.

Was ist Bilddatenaugmentation?

Nehmen wir an, Sie versuchen, einen Freund in einer Menschenmenge zu erkennen, aber er trägt eine Sonnenbrille oder steht an einem schattigen Ort. Selbst bei diesen geringfügigen Veränderungen im Aussehen wissen Sie immer noch, wer er ist. Andererseits kann ein Vision-KI-Modell mit solchen Variationen zu kämpfen haben, es sei denn, es wurde darauf trainiert, Objekte in verschiedenen Umgebungen zu erkennen.

Die Datenerweiterung für Bilder verbessert die Leistung von Computer Vision-Modellen, indem sie modifizierte Versionen vorhandener Bilder zu den Trainingsdaten hinzufügt, anstatt Tausende neuer Bilder zu sammeln. 

Veränderungen an Bildern wie Spiegeln, Drehen, Anpassen der Helligkeit oder Hinzufügen kleiner Verzerrungen setzen Vision-KI-Modelle einem breiteren Spektrum von Bedingungen aus. Anstatt sich auf riesige Datensätze zu verlassen, können Modelle effizient aus kleineren Trainingsdatensätzen mit augmentierten Bildern lernen. 

__wf_reserved_inherit
Abb. 1. Beispiele für augmentierte Bilder eines Autos.

Die Bedeutung der Datenerweiterung in der Computer Vision

Hier sind einige der Hauptgründe, warum Augmentierung für Computer Vision unerlässlich ist:

  • Reduziert den Datenbedarf: Das Sammeln großer Bilddatensätze erfordert Zeit und Ressourcen. Augmentierung kann verwendet werden, um Modelle effektiv zu trainieren, ohne dass massive Datensätze erforderlich sind.
  • Verhindert Overfitting: Ein Modell, das mit zu wenigen Beispielen trainiert wurde, kann sich Details merken, anstatt allgemeine Muster zu erkennen. Das Hinzufügen von Vielfalt durch Augmentierung stellt sicher, dass Vision AI-Modelle auf eine Weise lernen, die auf neue und ungesehene Daten angewendet werden kann.
  • Ahmt unvollkommene Bilder nach: Bilder in Datensätzen sind oft zu perfekt, aber reale Fotos können unscharf, verdeckt oder verzerrt sein. Das Anreichern von Bildern mit Rauschen, Okklusionen oder anderen Variationen macht sie realistischer.
  • Erhöht die Robustheit des Modells: Das Training mit einer Vielzahl von Bildern hilft der KI, mit realen Veränderungen umzugehen, wodurch sie in verschiedenen Umgebungen, Lichtverhältnissen und Situationen zuverlässiger wird.

Wann sollten Sie Bilddaten-Augmentierung verwenden?

Die Datenerweiterung für Bilder ist besonders hilfreich, wenn ein Computer Vision-Modell Objekte in verschiedenen Situationen erkennen muss, aber nicht genügend unterschiedliche Bilder hat. 

Wenn Forscher beispielsweise ein Vision-AI-Modell trainieren, um seltene Unterwasserarten zu identifizieren, die selten fotografiert werden, kann der Datensatz klein sein oder wenig Variation aufweisen. Durch die Augmentierung der Bilder – Anpassen der Farben, um verschiedene Wassertiefen zu simulieren, Hinzufügen von Rauschen, um trübe Bedingungen nachzubilden, oder leichtes Verändern der Formen, um natürlichen Bewegungen Rechnung zu tragen – kann das Modell lernen, Unterwasserobjekte genauer zu erkennen.

Hier sind einige andere Situationen, in denen Augmentierung einen großen Unterschied macht:

  • Ausgleich des Datensatzes: Einige Objekte kommen in den Trainingsdaten möglicherweise seltener vor, was zu einer Verzerrung von Vision-KI-Modellen führt. Die Augmentierung hilft dabei, mehr Beispiele für seltene Objekte zu erstellen, damit das Modell alle Kategorien fair erkennen kann.
  • Anpassung an verschiedene Kameras: Bilder können je nach Gerät unterschiedlich aussehen. Augmentation hilft Vision-KI-Modellen, auf Fotos mit unterschiedlichen Auflösungen, Lichtverhältnissen und Qualitäten gut zu funktionieren.
  • Korrektur kleinerer Beschriftungsfehler: Geringfügige Verschiebungen, Zuschneidungen oder Drehungen helfen Computer-Vision-Modellen, Objekte korrekt zu erkennen, selbst wenn die ursprünglichen Beschriftungen nicht perfekt ausgerichtet sind.

Wie funktioniert Bilddatenaugmentation?

In den Anfängen der Computer Vision umfasste die Augmentierung von Bilddaten in erster Linie grundlegende Bildverarbeitungstechniken wie Spiegeln, Drehen und Zuschneiden, um die Vielfalt der Datensätze zu erhöhen. Mit der Verbesserung der KI wurden fortschrittlichere Methoden eingeführt, wie z. B. das Anpassen von Farben (Farbraumtransformationen), das Schärfen oder Weichzeichnen von Bildern (Kernelfilter) und das Mischen mehrerer Bilder (Bildmischung), um das Lernen zu verbessern.

Augmentierung kann vor und während des Modelltrainings erfolgen. Vor dem Training können modifizierte Bilder zum Datensatz hinzugefügt werden, um mehr Vielfalt zu bieten. Während des Trainings können Bilder in Echtzeit zufällig verändert werden, wodurch Vision-KI-Modelle sich an unterschiedliche Bedingungen anpassen können.

Diese Änderungen werden mithilfe mathematischer Transformationen vorgenommen. So neigt beispielsweise die Drehung ein Bild, das Zuschneiden entfernt Teile, um verschiedene Ansichten nachzubilden, und Helligkeitsänderungen simulieren Beleuchtungsvariationen. Das Weichzeichnen macht Bilder weicher, das Schärfen macht Details klarer und das Mischen von Bildern kombiniert Teile verschiedener Bilder. Vision-KI-Frameworks und Tools wie OpenCV, TensorFlow und PyTorch können diese Prozesse automatisieren und die Augmentierung schnell und effektiv gestalten.

Wichtige Techniken zur Bilddatenaugmentation

Nachdem wir nun besprochen haben, was Bilddatenaugmentation ist, wollen wir uns einige grundlegende Techniken der Bilddatenaugmentation genauer ansehen, die zur Verbesserung von Trainingsdaten verwendet werden.

Anpassen von Ausrichtung und Position

Computer Vision Modelle wie YOLO11 müssen Objekte oft aus verschiedenen Winkeln und Perspektiven erkennen. Um dies zu erleichtern, können Bilder horizontal oder vertikal gespiegelt werden, sodass das KI-Modell lernt, Objekte aus verschiedenen Blickwinkeln zu erkennen. 

In ähnlicher Weise verändert das leichte Drehen von Bildern ihren Winkel, sodass das Modell Objekte aus verschiedenen Perspektiven identifizieren kann. Auch das Verschieben von Bildern in verschiedene Richtungen (Translation) hilft Modellen, sich an kleine Positionsänderungen anzupassen. Diese Transformationen stellen sicher, dass Modelle besser auf reale Bedingungen generalisieren, bei denen die Objektplatzierung in einem Bild unvorhersehbar ist.

__wf_reserved_inherit
Abb. 2. Verschiedene Augmentierungsmethoden bezüglich Orientierung und Position.

Größenänderung und Zuschneiden

In Bezug auf reale Computer-Vision-Lösungen können Objekte in Bildern in unterschiedlichen Entfernungen und Größen erscheinen. Vision-KI-Modelle müssen robust genug sein, um sie unabhängig von diesen Unterschieden zu erkennen. 

Um die Anpassungsfähigkeit zu verbessern, können die folgenden Augmentierungsmethoden verwendet werden:

  • Skalierung: Das Ändern der Größe verändert die Bildgröße unter Beibehaltung der Proportionen, wodurch KI-Modelle Objekte in verschiedenen Entfernungen erkennen können.
  • Zuschneiden: Dadurch werden unnötige Teile eines Bildes entfernt, wodurch das Modell sich auf Schlüsselbereiche konzentrieren und Hintergrundablenkungen reduzieren kann.
  • Scherung (Shearing): Das leichte Verzerren eines Bildes simuliert ein geneigtes oder gestrecktes Aussehen und hilft der KI, Objekte aus verschiedenen Blickwinkeln zu erkennen.

Diese Anpassungen helfen Computer-Vision-Modellen, Objekte zu erkennen, selbst wenn sich ihre Größe oder Form leicht ändert.

Perspektiv- und Verzerrungsanpassungen

Objekte in Bildern können je nach Kamerawinkel unterschiedlich erscheinen, was die Erkennung für Computer-Vision-Modelle erschwert. Um Modellen zu helfen, mit diesen Variationen umzugehen, können Augmentationstechniken anpassen, wie Objekte in Bildern dargestellt werden. 

Beispielsweise können Perspektivtransformationen den Blickwinkel verändern, sodass ein Objekt so aussieht, als würde es aus einer anderen Position betrachtet. Dadurch können Vision-KI-Modelle Objekte auch dann erkennen, wenn sie geneigt oder aus einem ungewöhnlichen Blickwinkel aufgenommen wurden. 

Ein weiteres Beispiel ist eine elastische Transformation, die Bilder dehnt, biegt oder verzerrt, um natürliche Verzerrungen zu simulieren, so dass Objekte so erscheinen, wie sie in Reflexionen oder unter Druck erscheinen würden. 

Farb- und Beleuchtungsmodifikationen

Lichtverhältnisse und Farbunterschiede können die Interpretation von Bildern durch Vision-AI-Modelle erheblich beeinflussen. Da Objekte unter verschiedenen Lichtverhältnissen unterschiedlich aussehen können, können die folgenden Augmentationstechniken helfen, diese Situationen zu bewältigen:

  • Anpassung von Helligkeit und Kontrast: Die Simulation verschiedener Lichtverhältnisse hilft Vision-KI-Modellen, Objekte sowohl in hellen als auch in dunklen Umgebungen zu erkennen.
  • Farbjittering: Das zufällige Ändern von Farbton, Sättigung und Farbbalance macht Computer-Vision-Modelle anpassungsfähiger an verschiedene Kameras und Lichtverhältnisse.
  • Graustufenkonvertierung: Die Konvertierung von Bildern in Schwarzweiß regt Vision-AI-Modelle dazu an, sich auf Formen und Texturen anstatt auf Farben zu konzentrieren.
__wf_reserved_inherit
Abb. 3. Beispiele für Augmentierungen im Zusammenhang mit Farbvariationen.

Fortschrittliche Techniken zur Augmentierung von Bilddaten

Bisher haben wir nur Augmentationstechniken untersucht, die ein einzelnes Bild verändern. Einige fortgeschrittene Methoden beinhalten jedoch die Kombination mehrerer Bilder, um das KI-Lernen zu verbessern.

MixUp mischt beispielsweise zwei Bilder miteinander, wodurch Computer-Vision-Modelle Objektbeziehungen besser verstehen und ihre Fähigkeit verbessern, über verschiedene Szenarien hinweg zu generalisieren. CutMix geht noch einen Schritt weiter, indem es einen Abschnitt eines Bildes durch einen Teil eines anderen ersetzt, wodurch Modelle aus mehreren Kontexten innerhalb desselben Bildes lernen können. CutOut hingegen funktioniert anders, indem es zufällige Teile eines Bildes entfernt und Vision-AI-Modelle trainiert, Objekte auch dann zu erkennen, wenn sie teilweise verdeckt oder verdeckt sind.

__wf_reserved_inherit
Abb. 4. Fortschrittliche Techniken zur Augmentierung von Bilddaten.

Die Rolle von generativer KI bei der Augmentierung von Bilddaten

Generative KI gewinnt in vielen Branchen und alltäglichen Anwendungen an Bedeutung. Sie sind ihr wahrscheinlich im Zusammenhang mit KI-generierten Bildern, Deepfake-Videos oder Apps begegnet, die realistische Avatare erstellen. Aber über Kreativität und Unterhaltung hinaus spielt Generative KI eine entscheidende Rolle beim Training von Vision-KI-Modellen, indem sie neue Bilder aus bestehenden generiert.

Anstatt Bilder einfach zu spiegeln oder zu drehen, kann es realistische Variationen erzeugen – Gesichsausdrücke, Kleidungsstile verändern oder sogar verschiedene Wetterbedingungen simulieren. Diese Variationen helfen Computer-Vision-Modellen, sich an unterschiedliche reale Szenarien anzupassen und in diesen genauer zu werden. Fortschrittliche generative KI-Modelle wie GANs (Generative Adversarial Networks) und Diffusionsmodelle können auch fehlende Details ergänzen oder hochwertige synthetische Bilder erzeugen.

Einschränkungen der Bilddatenaugmentation

Obwohl Data Augmentation die Trainingsdatensätze verbessert, gibt es auch einige Einschränkungen zu berücksichtigen. Hier sind einige wichtige Herausforderungen im Zusammenhang mit der Bilddaten-Augmentierung:

  • Begrenzte Datenvielfalt: Augmentierte Bilder stammen aus vorhandenen Daten und können keine völlig neuen Muster oder seltene Perspektiven einführen.
  • Potenzielle Datenverzerrung: Übermäßige Transformationen können Bilder unrealistisch machen, was potenziell die Modellgenauigkeit in realen Szenarien verringert.
  • Erhöhte Rechenleistung: Echtzeit-Augmentierung, die während des Modelltrainings stattfindet, kann einiges an Rechenleistung erfordern, was das Training verlangsamt und die Speichernutzung erhöht.
  • Klassenungleichgewicht bleibt bestehen: Augmentierung erzeugt keine völlig neuen Stichproben, sodass unterrepräsentierte Kategorien immer noch zu verzerrtem Lernen führen können.

Eine reale Anwendung von Bilddatenaugmentation

Eine interessante Anwendung der Bilddatenaugmentation findet sich in selbstfahrenden Autos, wo die in Sekundenbruchteilen getroffenen Entscheidungen von Computer-Vision-Modellen wie YOLO11 entscheidend sind. Das Modell muss in der Lage sein, Straßen, Personen und andere Objekte genau zu erkennen.

Allerdings können die realen Bedingungen, denen ein selbstfahrendes Fahrzeug begegnet, unvorhersehbar sein. Schlechtes Wetter, Bewegungsunschärfe und versteckte Schilder können Vision-AI-Lösungen in diesem Sektor komplex machen. Das Training von Computer Vision-Modellen nur mit realen Bildern reicht oft nicht aus. Bilddatensätze für die Modelle in selbstfahrenden Autos müssen vielfältig sein, damit das Modell lernen kann, unerwartete Situationen zu bewältigen.

Die Datenerweiterung für Bilder löst dies, indem sie Nebel simuliert, die Helligkeit anpasst und Formen verzerrt. Diese Änderungen helfen Modellen, Objekte unter verschiedenen Bedingungen zu erkennen. Dadurch werden Modelle intelligenter und zuverlässiger. 

Durch erweitertes Training passen sich Vision AI-Lösungen in selbstfahrenden Autos besser an und treffen sicherere Entscheidungen. Genauere Ergebnisse bedeuten weniger Unfälle und eine verbesserte Navigation. 

__wf_reserved_inherit
Abb. 5. Ein Beispiel für die Erweiterung von Bilddaten in Bezug auf selbstfahrende Autos.

Selbstfahrende Autos sind nur ein Beispiel. Tatsächlich ist die Augmentierung von Bilddaten in einer Vielzahl von Sektoren von entscheidender Bedeutung, von der medizinischen Bildgebung bis zur Einzelhandelsanalyse. Jede Anwendung, die auf Computer Vision basiert, kann potenziell von der Augmentierung von Bilddaten profitieren.

Wesentliche Erkenntnisse

Vision-AI-Systeme müssen in der Lage sein, Objekte unter verschiedenen Bedingungen zu erkennen, aber das Sammeln endloser realer Bilder für das Training kann schwierig sein. Image Data Augmentation löst dies, indem es Variationen bestehender Bilder erstellt, wodurch Modelle schneller lernen und in realen Situationen besser funktionieren. Es verbessert die Genauigkeit und stellt sicher, dass Vision-AI-Modelle wie YOLO11 mit unterschiedlichen Lichtverhältnissen, Winkeln und Umgebungen umgehen können.

Für Unternehmen und Entwickler spart die Bilddatenerweiterung Zeit und Mühe und macht gleichzeitig Computer-Vision-Modelle zuverlässiger. Vom Gesundheitswesen bis hin zu selbstfahrenden Autos sind viele Branchen darauf angewiesen. Da sich Vision AI ständig weiterentwickelt, wird die Augmentierung auch in Zukunft ein wesentlicher Bestandteil des Aufbaus intelligenterer und anpassungsfähigerer Modelle sein.

Treten Sie unserer Community bei und besuchen Sie unser GitHub-Repository, um KI in Aktion zu sehen. Entdecken Sie unsere Lizenzoptionen und erfahren Sie mehr über KI in der Landwirtschaft und Computer Vision in der Fertigung auf unseren Lösungsseiten.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert