Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Synthetische Daten

Erschließen Sie die Leistungsfähigkeit synthetischer Daten für KI/ML! Überwinden Sie Datenknappheit, Datenschutzprobleme und Kosten und fördern Sie gleichzeitig Modelltraining und Innovation.

Synthetische Daten sind künstlich erzeugte Informationen, die reale Daten nachahmen sollen. In den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) dienen sie als leistungsstarke Alternative oder Ergänzung zu realen Daten für das Training von KI-Modellen. Das Sammeln umfangreicher, qualitativ hochwertiger und korrekt gekennzeichneter realer Datensätze kann kostspielig, zeitaufwendig und aufgrund von Datenschutzbestimmungen oder der Seltenheit bestimmter Ereignisse manchmal unpraktisch sein. Synthetische Daten bieten eine Lösung, indem sie es Entwicklern ermöglichen, riesige Mengen an perfekt gekennzeichneten Daten bei Bedarf zu generieren, wodurch diese Einschränkungen beseitigt und die Entwicklung robuster Computer Vision (CV)-Systeme beschleunigt wird.

Wie werden synthetische Daten generiert?

Synthetische Daten können mit verschiedenen fortschrittlichen Techniken erstellt werden, die jeweils für unterschiedliche Anwendungen geeignet sind. Diese Methoden ermöglichen eine präzise Kontrolle über die Eigenschaften der generierten Daten, wie z. B. Beleuchtung, Objektplatzierung und Umgebungsbedingungen.

  • 3D-Modellierung und -Simulation: Entwickler verwenden Computergrafiken und Simulationsumgebungen, um fotorealistische virtuelle Welten zu erstellen. Dieser Ansatz ist in der Robotik und in autonomen Systemen üblich, wo physikalische Engines die reale Physik simulieren können. Plattformen wie NVIDIA DRIVE Sim werden verwendet, um Daten für das Training selbstfahrender Autos zu generieren.
  • Generative Modelle: Techniken wie Generative Adversarial Networks (GANs) und in jüngerer Zeit Diffusionsmodelle sind ein Kernbestandteil der generativen KI. Diese Modelle lernen die zugrunde liegenden Muster aus realen Daten, um völlig neue, realistische Stichproben zu erstellen. Dies ist besonders nützlich für die Erzeugung verschiedener menschlicher Gesichter oder komplexer Szenen.
  • Prozedurale Generierung: Diese Methode verwendet Algorithmen und Regeln, um Daten automatisch zu erstellen. Sie wird häufig in der Videospielentwicklung verwendet, um großflächige Umgebungen zu generieren, und kann angepasst werden, um mit minimalem manuellem Aufwand vielfältige Trainingsdaten zu erzeugen.
  • Domänenrandomisierung: Eine Technik, bei der Parameter einer Simulation (wie Beleuchtung, Textur und Objektpositionen) absichtlich variiert werden. Dies hilft dem trainierten Modell, besser von simulierten auf reale Umgebungen zu generalisieren, indem es gezwungen wird, sich auf wesentliche Merkmale zu konzentrieren. Ein bahnbrechendes Paper von Tobin et al. demonstrierte seine Wirksamkeit für die Robotersteuerung.

Anwendungsfälle in der Praxis

Der Einsatz von synthetischen Daten nimmt in vielen Branchen zu und ermöglicht Durchbrüche, wo reale Daten einen Engpass darstellen.

  1. Autonome Fahrzeuge: Das Training selbstfahrender Autos erfordert Daten von Millionen von Kilometern Fahrt, einschließlich seltener und gefährlicher Szenarien wie Unfälle oder extremes Wetter. Es ist unsicher und unpraktisch, diese Daten in der realen Welt zu sammeln. Synthetische Daten ermöglichen es Entwicklern, diese Edge Cases in einer sicheren, kontrollierten Umgebung zu simulieren und so die Robustheit von Objekterkennungs- und Navigationssystemen zu verbessern. Unternehmen wie Waymo verlassen sich stark auf Simulationen für Tests und Validierung.
  2. KI im Gesundheitswesen: In der medizinischen Bildanalyse sind Patientendaten hochsensibel und durch strenge Datenschutzgesetze wie HIPAA geschützt. Darüber hinaus sind Daten für seltene Krankheiten rar. Synthetische Daten können verwendet werden, um realistische medizinische Scans (z. B. CT oder MRT) zu generieren, ohne den Datenschutz zu gefährden. Dies trägt dazu bei, größere und ausgewogenere Datensätze zu erstellen, KI-Bias zu reduzieren und die Genauigkeit von Diagnosemodellen für Erkrankungen wie die Hautkrebs-Erkennung zu verbessern.

Synthetische Daten vs. Datenerweiterung

Während sowohl synthetische Daten als auch Datenerweiterung darauf abzielen, Datensätze zu verbessern, funktionieren sie unterschiedlich.

  • Data Augmentation: Diese Technik beinhaltet das Anwenden von Transformationen wie Drehung, Beschneidung oder Farbverschiebungen auf vorhandene reale Bilder. Sie erhöht die Vielfalt des Trainingssatzes, indem modifizierte Versionen der Originaldaten erstellt werden. Sie können mehr über die in Ultralytics YOLO-Modellen verwendeten Augmentierungen erfahren.
  • Synthetische Daten: Dies beinhaltet die Erstellung vollständig neuer Daten von Grund auf mithilfe von Simulationen oder generativen Modellen. Sie werden nicht von bestehenden Datenpunkten abgeleitet und können Szenarien darstellen, die im ursprünglichen Datensatz vollständig fehlen.

Zusammenfassend lässt sich sagen, dass Data Augmentation vorhandene Daten variiert, während Synthetic Data neue Daten erzeugt. Beide sind leistungsstarke Techniken, und sie können kombiniert werden, um hochrobuste und genaue Deep-Learning-Modelle zu erstellen, die über Plattformen wie Ultralytics HUB verwaltet werden.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert