Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Was sind synthetische Daten in der Computer Vision? Ein Überblick

Abirami Vina

5 Min. Lesezeit

4. Juli 2025

Erfahren Sie, wie synthetische Daten für das KI-Modelltraining in Computer-Vision-Anwendungen in einer Reihe von Branchen wie dem Gesundheitswesen und der Robotik eingesetzt werden.

Daten waren schon immer ein treibender Faktor in Bereichen wie Analytics und künstliche Intelligenz (KI). Tatsächlich prägt die Art und Weise, wie wir Daten sammeln, generieren und nutzen, die Zukunft intelligenter Systeme. So sind beispielsweise selbstfahrende Autos auf Millionen von beschrifteten Bildern und Sensormessungen angewiesen, von Straßenschildern bis hin zu Fußgängerbewegungen, um zu lernen, wie man sich sicher im Straßenverkehr bewegt.

Eine der wichtigsten Arten von Daten, die diesen Fortschritt vorantreiben, insbesondere in Bereichen wie autonome Fahrzeuge und Sicherheit, sind visuelle Daten wie Bilder und Videos. 

Insbesondere der Bereich der KI, der es Maschinen ermöglicht, diese visuellen Informationen zu interpretieren, wird als Computer Vision bezeichnet. Sie hilft Systemen, visuelle Eingaben ähnlich wie Menschen zu verstehen und zu analysieren, und unterstützt Aufgaben wie Gesichtserkennung, Verkehrsschilderkennung und medizinische Bildanalyse. 

Allerdings kann das Sammeln von umfangreichen, qualitativ hochwertigen visuellen Datensätzen aus der realen Welt zeitaufwendig und kostspielig sein und wirft oft Bedenken hinsichtlich des Datenschutzes auf. Aus diesem Grund erforschen Forschende aktiv das Konzept der Nutzung synthetischer Daten. 

Synthetische Daten beziehen sich auf künstlich erzeugte Visualisierungen, die reale Bilder und Videos genau nachahmen. Sie werden mithilfe von Techniken wie 3D-Modellierung, Computersimulationen und generativen KI-Methoden wie Generative Adversarial Networks (GANs) erstellt, die Muster aus realen Daten lernen, um realistische neue Beispiele zu erstellen.

Es wird erwartet, dass synthetische Daten bald eine entscheidende Rolle in der KI-Entwicklung spielen werden - Gartner prognostiziert, dass sie bis 2030 wichtiger sein werden als reale Daten. In diesem Artikel werden wir untersuchen, was synthetische Daten im Kontext von Computer Vision sind, wie sie generiert werden und wo sie in realen Szenarien eingesetzt werden. Fangen wir an!

Was sind synthetische Daten in der Computer Vision?

Angenommen, Sie möchten ein Vision AI-Modell trainieren, um Objekte in verschiedenen Umgebungen und unter unterschiedlichen Bedingungen zu erkennen. Sich nur auf reale Daten zu verlassen, kann schwierig sein und sich manchmal einschränkend anfühlen. 

Unterdessen können synthetische Daten verwendet werden, um den richtigen Datensatz zu erstellen, der Objekte unter verschiedenen künstlich erzeugten Bedingungen enthält. Mithilfe von Tools wie 3D-Modellierung und Simulationen können Entwickler Bilder mit präziser Kontrolle über Faktoren wie Beleuchtung, Winkel und Objektplatzierung generieren. Dies bietet wiederum mehr Flexibilität für das Modelltraining als reale Daten.

Synthetische Daten sind besonders hilfreich, wenn das Sammeln von realen Daten schwierig oder unmöglich ist. Um beispielsweise ein Modell zu trainieren, das Personen in einer Vielzahl von Posen erkennt, wie z. B. beim Laufen, Hocken oder Liegen, müssten Tausende von Fotos in vielen verschiedenen Umgebungen, Winkeln und Lichtverhältnissen aufgenommen werden. 

Andererseits können Entwickler mit synthetischen Daten diese Variationen einfach mit genauen Beschriftungen generieren, was Zeit und Aufwand spart und gleichzeitig die Modellleistung verbessert.

Abb. 1. Ein synthetischer Datensatz mit verschiedenen menschlichen Posen und Beleuchtungsvariationen (Quelle).

Synthetische vs. reale Daten in der KI

Als Nächstes wollen wir uns die Unterschiede zwischen synthetischen und realen Daten genauer ansehen. Beide haben ihre Vor- und Nachteile, wenn es um das Trainieren von KI-Modellen geht. 

Beispielsweise sind synthetische Daten nützlich, wenn reale Daten schwer zu erfassen sind, aber möglicherweise nicht jedes kleine Detail erfassen, das im wirklichen Leben zu finden ist. Gleichzeitig sind reale Daten authentischer, aber es kann schwierig sein, sie zu beschaffen, zeitaufwendig zu beschriften und möglicherweise nicht jede Situation abzudecken.

Durch die Kombination von synthetischen und realen Daten können Entwickler das Beste aus beiden Welten erhalten. Dieses Gleichgewicht hilft KI-Modellen, genauer zu lernen, besser über verschiedene Szenarien hinweg zu generalisieren und Verzerrungen zu reduzieren.

Abb. 2. Synthetische vs. reale Daten in der KI. Bild vom Autor.

Ein Blick auf die Datengenerierung für Computer-Vision-Modelle

Vom Aufbau virtueller Welten mit 3D-Werkzeugen bis zur Erzeugung von Bildern mit generativer KI sind hier einige gängige Methoden zur Erstellung synthetischer Trainingsdaten für Computer-Vision-Modelle:

  • 3D-Modellierung: Entwickler verwenden 3D-Software, um digitale Objekte und Szenen zu erstellen. Dies ermöglicht die vollständige Kontrolle über Dinge wie Beleuchtung, Kamerawinkel und Objektplatzierung und ist hilfreich für die Erzeugung realistischer Bilder von Personen, Fahrzeugen und Umgebungen.

  • Simulationen: Diese bilden reale Situationen nach, wie z. B. Verkehrs- oder Fabrikumgebungen, unter Verwendung von physikbasierten Engines. Simulationen sind nützlich, um sicher Trainingsdaten in Bereichen wie Robotik und selbstfahrenden Autos zu generieren.

  • Generative Adversarial Networks: GANs sind eine Art Deep-Learning-Modell, das aus zwei Netzwerken besteht: einem, das Bilder erzeugt, und einem, das sie bewertet. Gemeinsam erzeugen sie sehr realistische Bilder, wie z. B. menschliche Gesichter oder Straßenansichten, indem sie aus realen Beispielen lernen.

  • Prozedurale Generierung: Diese Technik verwendet vordefinierte Regeln oder mathematische Modelle, um automatisch komplexe visuelle Strukturen wie Gelände, Gebäude oder Texturen zu generieren. Sie wird häufig in Spiele- und Simulationsplattformen verwendet und kann umfangreiche, vielfältige Datensätze mit minimalem menschlichen Input erzeugen.

  • Domänenrandomisierung: Sie kann zufällig Dinge wie Beleuchtung, Farben und Objektformen in synthetischen Szenen ändern. Das Ziel dieser Technik ist es, Modellen zu helfen, sich auf das zu konzentrieren, was wirklich zählt, und sie anpassungsfähiger an reale Umgebungen zu machen.
Abb. 3. Datenbeispiele: (a) 3D-modellbasiert, (b) synthetische Mehrfachobjektszenen und (c) reale Datensatzbilder (Quelle).

Vision-KI-Modelltraining mit synthetischen Daten

Nachdem wir nun einige der verschiedenen Methoden zur Erstellung synthetischer Daten besprochen haben, wollen wir uns ansehen, wie diese zum Trainieren von KI-Modellen verwendet werden. 

Sobald synthetische Daten generiert wurden, können sie in der Regel direkt in die Trainingspipeline integriert werden, und zwar auf die gleiche Weise wie reale Daten. Sie enthalten typischerweise die notwendigen Annotationen, wie z. B. Objektbezeichnungen, Begrenzungsrahmen oder Segmentierungsmasken, was bedeutet, dass sie für überwachte Lernaufgaben verwendet werden können, bei denen Modelle aus beschrifteten Eingabe-Ausgabe-Paaren lernen, ohne dass eine manuelle Beschriftung erforderlich ist.

Während des Trainings verarbeitet das Modell synthetische Bilder, um Merkmale zu erkennen, Muster zu erkennen und Objekte zu klassifizieren. Diese Daten können verwendet werden, um eine erste Version des Modells von Grund auf neu zu erstellen oder um einen bestehenden Datensatz anzureichern, was zur Verbesserung der Modellleistung beiträgt.

In vielen Arbeitsabläufen werden synthetische Daten auch für das Pretraining verwendet, wodurch Modelle ein breites grundlegendes Verständnis erhalten, bevor sie mit realen Beispielen feinabgestimmt werden. Ebenso werden sie zur Erweiterung von Datensätzen durch die Einführung kontrollierter Variationen verwendet, wie z. B. unterschiedliche Lichtverhältnisse, Winkel oder seltene Objektklassen, um die Generalisierung zu verbessern und Overfitting zu reduzieren. 

Durch die Kombination von synthetischen und realen Daten können Teams robustere Modelle trainieren, die unter einer Vielzahl von Bedingungen gut funktionieren, und gleichzeitig die Abhängigkeit von zeitaufwändigen und teuren manuellen Datenerfassungsbemühungen verringern.

Anwendungsfälle von synthetischen Daten in der Computer Vision

Da synthetische Daten immer praktischer und zugänglicher werden, sehen wir, dass sie in einer Vielzahl von realen Vision-KI-Anwendungsfällen eingesetzt werden. Lassen Sie uns einige der wirkungsvollsten Anwendungen in der Computer Vision untersuchen, in denen sie verwendet werden.

Verwendung synthetischer Daten zur Objekterkennung in autonomen Fahrzeugen

Um selbstfahrenden Autos das sichere Fahren beizubringen, müssen Modelle in einer Vielzahl von Szenarien trainiert werden, einschließlich seltener oder gefährlicher Situationen. Das Sammeln von realen Daten für diese Grenzfälle kann jedoch schwierig und manchmal unsicher sein. Synthetische Daten können helfen, Szenen zu erstellen, in denen Modelle lernen können, Objekte in schwierigen Situationen zu erkennen. Sie können auch verschiedene Sensorkonfigurationen nachahmen, was hilfreich ist, da nicht alle selbstfahrenden Autos die gleiche Hardware verwenden.

Die DRIVE Sim-Plattform von NVIDIA ist ein hervorragendes Beispiel dafür. Sie erstellt hochwertige synthetische Daten mithilfe von fotorealistischen 3D-Modellen, virtuellen Umgebungen und Sensorsimulationen. Sie kann auch Bilder von mehreren Fahrwinkeln aus einem einzigen Bild generieren. Die Verwendung solcher synthetischer Daten trägt dazu bei, den Bedarf an teuren realen Tests zu reduzieren und dem Modell dennoch die Vielfalt zu bieten, die es zum effektiven Lernen benötigt.

Abb. 4. Erstellung mehrerer Fahrsichten aus einem Bild (Quelle).

Reduzierung von Verzerrungen in der medizinischen Bildgebungs-KI mit synthetischen Daten

Computer-Vision-Modelle wie Ultralytics YOLO11, die Aufgaben wie Objekterkennung und Instanzsegmentierung unterstützen, können für medizinische Bildgebungsanwendungen kundenspezifisch trainiert werden. Reale Trainingsdaten enthalten jedoch häufig Verzerrungen, da sie möglicherweise nicht Patienten aus allen demografischen Gruppen angemessen repräsentieren.

Beispielsweise wird Hautkrebs bei Personen mit dunklerer Hautfarbe seltener diagnostiziert, was zu begrenzten Daten für diese Bevölkerungsgruppen führt. Dieses Ungleichgewicht kann zu Fehldiagnosen und ungleichen Gesundheitsergebnissen beitragen, insbesondere in Bereichen wie Histopathologie, Röntgenaufnahmen des Brustkorbs und Dermatologie.

Synthetische Bilder können dazu beitragen, diese Datenlücke zu schließen. Durch die Generierung zusätzlicher, vielfältiger Beispiele, wie z. B. unterschiedliche Gewebeveränderungen, ein breites Spektrum an Lungenerkrankungen und Hauttöne mit verschiedenen Arten von Läsionen, können synthetische Daten dazu beitragen, die Modellleistung in unterrepräsentierten Gruppen zu verbessern. 

Forschende arbeiten derzeit an der Entwicklung und Validierung synthetischer Datensätze, um diese Ziele zu unterstützen. Sie untersuchen auch, wie synthetische Daten verwendet werden können, um medizinische Geräte und Behandlungsstrategien zu testen, ohne auf echte Patientendaten zurückgreifen zu müssen. Dies trägt dazu bei, die Forschung zu beschleunigen und gleichzeitig die Privatsphäre der Patienten zu schützen. Durch diese Arbeit ebnen synthetische Daten den Weg für inklusivere, genauere und ethischere medizinische KI-Systeme.

Fortschritte in der landwirtschaftlichen KI durch synthetische Daten für die Präzisionslandwirtschaft

Der Aufbau von Vision-KI-Systemen für landwirtschaftliche Anwendungen hängt vom Zugang zu grossen Mengen an gelabelten Daten ab. Das Sammeln und Labeln von Bildern von Feldfrüchten, Krankheiten und Feldbedingungen ist jedoch langsam, teuer und oft durch Faktoren wie Wetter, Wachstumsperioden oder die Schwierigkeit, bestimmte Gebiete zu erreichen, eingeschränkt. 

Diese Herausforderungen erschweren das Training von Computer Vision Modellen für Aufgaben wie die Erkennung von Pflanzenkrankheiten, die Überwachung von Feldfrüchten oder die Vorhersage von Erträgen. Hier können synthetische Daten helfen, indem sie verschiedene landwirtschaftliche Umgebungen nachahmen, um nützliche Trainingsbeispiele zu generieren.

Abb. 5. Verwendung synthetischer Bilder zur verbesserten Erkennung von Krankheiten (Quelle).

Wesentliche Erkenntnisse

Die Verwendung synthetischer Daten stellt einen wichtigen Fortschritt im KI-Modelltraining dar, insbesondere für Computer-Vision-Systeme in Bereichen, in denen reale Daten begrenzt oder schwer zu beschaffen sind. Anstatt sich ausschließlich auf echte Fotos oder Videos zu verlassen, die teuer und zeitaufwändig sein oder Bedenken hinsichtlich des Datenschutzes aufwerfen können, ermöglicht uns die Verwendung synthetischer Daten, realistische, beschriftete Bilder bei Bedarf zu generieren. 

Es vereinfacht das Trainieren von Vision-KI-Modellen für Aufgaben wie autonomes Fahren, Krankheitserkennung oder Pflanzenüberwachung. Da sich KI ständig weiterentwickelt, wird synthetische Daten voraussichtlich eine noch größere Rolle bei der Beschleunigung von Innovationen und der Verbesserung der Zugänglichkeit in allen Branchen spielen.

Erfahren Sie mehr über KI in unserem GitHub-Repository und treten Sie unserer wachsenden Community bei. Entdecken Sie die Auswirkungen von Anwendungen wie KI in autonomen Fahrzeugen und Computer Vision in der Landwirtschaft. Erkunden Sie unsere Lizenzierungsoptionen und erwecken Sie Ihre Vision-AI-Projekte zum Leben.

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert