Glossar

Synthetische Daten

Erschließen Sie das Potenzial synthetischer Daten für KI/ML! Überwinden Sie Datenknappheit, Datenschutzprobleme und Kosten und steigern Sie gleichzeitig Modelltraining und Innovation.

Synthetische Daten sind künstlich erzeugte Informationen, die die statistischen Eigenschaften realer Daten nachahmen und nicht direkt aus realen Ereignissen oder Messungen gewonnen werden. In den Bereichen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) dienen synthetische Daten als wichtige Alternative oder Ergänzung zu realen Trainingsdaten. Sie sind besonders wertvoll, wenn das Sammeln ausreichender realer Daten schwierig, teuer oder zeitaufwändig ist(Leitfaden zur Datenerfassung und -beschriftung) oder Bedenken hinsichtlich des Datenschutzes aufwirft. Diese künstlich erzeugten Informationen helfen dabei, Modelle wie Ultralytics YOLO zu trainieren, Systeme zu testen und Szenarien zu erforschen, die in der Realität selten oder gefährlich sein könnten, was letztlich die Innovation und die Leistung der Modelle fördert.

Wie synthetische Daten erstellt werden

Bei der Generierung synthetischer Daten kommen je nach gewünschter Komplexität und Wiedergabetreue verschiedene Techniken zum Einsatz. Einige gängige Ansätze sind:

  • Statistische Modellierung: Verwendung statistischer Methoden wie Stichproben aus Wahrscheinlichkeitsverteilungen oder Regressionsmodelle, die aus realen Daten abgeleitet werden.
  • Simulationen: Erstellung virtueller Umgebungen oder Prozesse zur Generierung von Daten. Dies ist in der Robotik und bei autonomen Systemen üblich, wobei Plattformen wie NVIDIA Omniverse oder Unity Simulation verwendet werden.
  • Modelle des tiefen Lernens: Einsatz von Deep Learning (DL)-Techniken, insbesondere Generative Adversarial Networks (GANs) und neuerdings auch Diffusionsmodelle. Diese Modelle lernen die zugrundeliegenden Muster von realen Daten und erzeugen neue, ähnliche Datenpunkte. Das ursprüngliche GAN-Papier führte ein grundlegendes Konzept in diesem Bereich ein.

Bedeutung für KI und Computer Vision

Synthetische Daten bieten mehrere bedeutende Vorteile für die Entwicklung von KI und Computer Vision:

  • Überwindung von Datenknappheit: Stellt große Datenmengen zur Verfügung, wenn reale Daten nur begrenzt oder teuer zu beschaffen sind, und hilft so bei der Ausbildung robuster Modelle(Tipps zur Modellausbildung).
  • Verbesserung des Datenschutzes: Generiert Daten, die statistische Eigenschaften beibehalten, ohne sensible Informationen aus der realen Welt zu enthalten. Dies hilft bei der Einhaltung von Datenschutzbestimmungen und ermöglicht Techniken wie Differential Privacy.
  • Verringerung von Verzerrungen: Kann sorgfältig gesteuert werden, um die Darstellung unterrepräsentierter Gruppen oder Szenarien abzuschwächen oder zu verbessern und so dazu beizutragen, Verzerrungen in Datensätzen zu beseitigen und Fairness in der KI zu fördern.
  • Abdeckung von Grenzfällen: Ermöglicht die Erstellung von Daten, die seltene oder gefährliche Szenarien darstellen (z. B. Unfälle bei autonomen Fahrzeugen, seltene medizinische Erkrankungen), die in der Realität schwer zu erfassen sind. Dies verbessert die Modellverallgemeinerung.
  • Kosten- und Zeiteffizienz: Häufig billiger und schneller zu erstellen als die Erfassung und Kennzeichnung von realen Daten(Data Labeling Explained).

In der Computer Vision werden häufig synthetische Bilder verwendet, um Modelle für Aufgaben wie Objekterkennung, Bildsegmentierung und Posenschätzung unter verschiedenen Bedingungen (z. B. unterschiedliche Beleuchtung, Wetter, Blickwinkel) zu trainieren, die in den verfügbaren Datensätzen nur schwer zu finden sind.

Anwendungen in der realen Welt

Synthetische Daten werden in zahlreichen Branchen eingesetzt:

  • KI in der Automobilindustrie: Um Modelle für selbstfahrende Autos zu trainieren, werden große Mengen unterschiedlicher Fahrdaten benötigt. Simulationen, wie die Simulationsumgebung von Waymo, erzeugen synthetische Szenarien mit seltenen Ereignissen wie Unfällen oder ungewöhnlichen Straßenbedingungen, die für Sicherheitstests ohne reale Risiken entscheidend sind. Dies beschleunigt die Entwicklung zuverlässiger autonomer Systeme.
  • KI im Gesundheitswesen: Die Entwicklung von KI-Modellen für die medizinische Bildanalyse, z. B. für die Tumorerkennung, ist aufgrund von Datenschutzbestimmungen für Patienten (z. B. HIPAA) und der Knappheit an markierten Daten für seltene Krankheiten oft mit Herausforderungen verbunden. Synthetische medizinische Bilder oder Patientenakten (z. B. mithilfe von Tools wie Synthea) ermöglichen es Forschern, Modelle zu trainieren, ohne den Datenschutz zu gefährden, und den Zugang zu Daten zu demokratisieren.

Weitere Anwendungen sind die Finanzmodellierung(AI in Finance), der Einzelhandel(AI for Smarter Retail) und das Robotik-Training.

Synthetische Daten vs. Datenerweiterung

Obwohl sowohl synthetische Daten als auch Datenerweiterung darauf abzielen, Datensätze zu verbessern, handelt es sich um unterschiedliche Konzepte:

  • Datenerweiterung: Die Anwendung von Transformationen (wie Drehen, Beschneiden, Farbverschiebungen) auf vorhandene reale Datenpunkte, um leicht veränderte Versionen zu erstellen. Dadurch wird die Vielfalt des Trainingssatzes auf der Grundlage der ursprünglichen Datenverteilung erhöht. Ultralytics-Modelle enthalten häufig integrierte Erweiterungen(Albumentations Integration).
  • Synthetische Daten: Bezieht sich auf völlig neue Daten, die künstlich generiert werden, oft durch Simulationen oder generative Modelle wie GANs. Sie gehen nicht unbedingt von einem bestimmten realen Datenpunkt aus und können Szenarien darstellen, die im ursprünglichen Datensatz nicht vorkommen.

Im Wesentlichen erweitert die Datenerweiterung die Varianz vorhandener Daten, während synthetische Daten völlig neue Datenpunkte und Szenarien schaffen können. Dies bietet eine leistungsstarke Möglichkeit, reale Daten beim Training von KI-Modellen, die über Plattformen wie Ultralytics HUB verwaltet werden, zu ergänzen oder sogar zu ersetzen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert