Glossar

Synthetische Daten

Erschließen Sie das Potenzial synthetischer Daten für KI/ML! Überwinden Sie Datenknappheit, Datenschutzprobleme und Kosten und steigern Sie gleichzeitig Modelltraining und Innovation.

Synthetische Daten sind künstlich erzeugte Informationen, die reale Daten imitieren sollen. In den Bereichen der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) dienen sie als leistungsstarke Alternative oder Ergänzung zu realen Daten für das Training von KI-Modellen. Die Erfassung umfangreicher, qualitativ hochwertiger und korrekt beschrifteter realer Datensätze kann kostspielig, zeitaufwändig und manchmal aufgrund von Datenschutzbestimmungen oder der Seltenheit bestimmter Ereignisse unpraktisch sein. Synthetische Daten bieten eine Lösung, indem sie es Entwicklern ermöglichen, große Mengen perfekt beschrifteter Daten auf Abruf zu generieren, diese Einschränkungen zu überwinden und die Entwicklung robuster Computer-Vision-Systeme (CV) zu beschleunigen.

Wie werden synthetische Daten generiert?

Synthetische Daten können mit verschiedenen fortschrittlichen Techniken erstellt werden, die jeweils für unterschiedliche Anwendungen geeignet sind. Diese Methoden ermöglichen eine präzise Kontrolle über die Eigenschaften der erzeugten Daten, z. B. Beleuchtung, Objektplatzierung und Umgebungsbedingungen.

  • 3D-Modellierung und -Simulation: Die Entwickler verwenden Computergrafiken und Simulationsumgebungen, um fotorealistische virtuelle Welten zu schaffen. Dieser Ansatz ist in der Robotik und bei autonomen Systemen üblich, wo physikalische Maschinen die reale Physik simulieren können. Plattformen wie NVIDIA DRIVE Sim werden verwendet, um Daten für das Training selbstfahrender Autos zu erzeugen.
  • Generative Modelle: Techniken wie Generative Adversarial Networks (GANs) und neuerdings auch Diffusionsmodelle sind eine Kernkomponente der generativen KI. Diese Modelle lernen die zugrunde liegenden Muster aus realen Daten, um völlig neue, realistische Muster zu erstellen. Dies ist besonders nützlich, um verschiedene menschliche Gesichter oder komplexe Szenen zu erzeugen.
  • Prozedurale Generierung: Bei dieser Methode werden Algorithmen und Regeln zur automatischen Erstellung von Daten verwendet. Sie wird häufig bei der Entwicklung von Videospielen eingesetzt, um großflächige Umgebungen zu erzeugen, und kann so angepasst werden, dass mit minimalem manuellem Aufwand unterschiedliche Trainingsdaten erzeugt werden.
  • Bereichs-Randomisierung: Eine Technik, bei der die Parameter einer Simulation (wie Beleuchtung, Textur und Objektpositionen) absichtlich variiert werden. Dadurch kann das trainierte Modell besser von simulierten auf reale Umgebungen verallgemeinert werden, da es gezwungen wird, sich auf wesentliche Merkmale zu konzentrieren. In einer bahnbrechenden Arbeit von Tobin et al. wurde ihre Wirksamkeit bei der Robotermanipulation nachgewiesen.

Anwendungen in der realen Welt

Die Verwendung synthetischer Daten nimmt in vielen Branchen zu und ermöglicht Durchbrüche in Bereichen, in denen reale Daten einen Engpass darstellen.

  1. Autonome Fahrzeuge: Für das Training selbstfahrender Autos werden Daten aus Millionen von Fahrkilometern benötigt, darunter auch seltene und gefährliche Szenarien wie Unfälle oder extreme Wetterbedingungen. Es ist unsicher und unpraktisch, diese Daten in der realen Welt zu sammeln. Synthetische Daten ermöglichen es den Entwicklern, diese Grenzfälle in einer sicheren, kontrollierten Umgebung zu simulieren und so die Robustheit von Objekterkennung und Navigationssystemen zu verbessern. Unternehmen wie Waymo verlassen sich bei Tests und Validierungen stark auf Simulationen.
  2. AI im Gesundheitswesen: Bei der medizinischen Bildanalyse sind die Patientendaten hochsensibel und durch strenge Datenschutzgesetze wie HIPAA geschützt. Darüber hinaus sind die Daten für seltene Krankheiten rar. Synthetische Daten können verwendet werden, um realistische medizinische Scans (z. B. CT oder MRT) zu erstellen, ohne den Datenschutz zu gefährden. Auf diese Weise können größere und ausgewogenere Datensätze erstellt werden, wodurch KI-Verzerrungen reduziert und die Genauigkeit von Diagnosemodellen für Krankheiten wie Hautkrebs verbessert werden.

Synthetische Daten vs. Datenerweiterung

Synthetische Daten und Datenerweiterung zielen zwar beide auf die Verbesserung von Datensätzen ab, funktionieren aber unterschiedlich.

  • Datenerweiterung: Diese Technik beinhaltet die Anwendung von Transformationen wie Rotation, Beschneidung oder Farbverschiebungen auf vorhandene reale Bilder. Sie erhöht die Vielfalt des Trainingssatzes, indem modifizierte Versionen der Originaldaten erstellt werden. Sie können mehr über die in den YOLO-Modellen von Ultralytics verwendeten Augmentierungen erfahren.
  • Synthetische Daten: Hier geht es darum, mithilfe von Simulationen oder generativen Modellen völlig neue Daten von Grund auf zu erstellen. Sie werden nicht von vorhandenen Datenpunkten abgeleitet und können Szenarien darstellen, die im ursprünglichen Datensatz nicht enthalten sind.

Zusammenfassend lässt sich sagen, dass die Datenerweiterung bestehende Daten variiert, während synthetische Daten neue Daten erzeugen. Beides sind leistungsstarke Techniken, die kombiniert werden können, um äußerst robuste und genaue Deep-Learning-Modelle zu erstellen, die über Plattformen wie Ultralytics HUB verwaltet werden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert