Synthetische Daten
Erschließen Sie die Leistungsfähigkeit synthetischer Daten für KI/ML! Überwinden Sie Datenknappheit, Datenschutzprobleme und Kosten und fördern Sie gleichzeitig Modelltraining und Innovation.
Synthetische Daten sind künstlich erzeugte Informationen, die die statistischen Eigenschaften und Muster von realen Daten nachahmen.
Daten der realen Welt nachahmen. In den Bereichen
maschinelles Lernen (ML) und
Computer Vision (CV) dienen sie als leistungsstarke
Ressource für die Entwicklung leistungsstarker Modelle, wenn die Beschaffung authentischer Daten schwierig, teuer oder
Bedenken hinsichtlich der Privatsphäre. Im Gegensatz zu herkömmlichen Datensätzen, die aus physischen Ereignissen stammen, werden synthetische Daten programmiert oder
programmiert oder simuliert, so dass Entwickler bei Bedarf riesige Bestände an perfekt beschrifteten
Trainingsdaten auf Anfrage. Branchenanalysten von
Gartner sagen voraus
dass synthetische Daten bis 2030 echte Daten in KI-Modellen in den Schatten stellen werden, was einen grundlegenden Wandel bei der Entwicklung intelligenter Systeme
gebaut werden.
Wie synthetische Daten erzeugt werden
Die Erstellung hochwertiger synthetischer Datensätze erfordert anspruchsvolle Techniken, die von der klassischen Computergrafik
bis zur modernen generativen KI reichen. Diese Methoden stellen sicher, dass
die künstlichen Daten vielfältig genug sind, damit die Modelle gut auf neue, unbekannte Szenarien verallgemeinert werden können.
-
3D-Simulation und Rendering: Spiel-Engines wie
Unity und
Unreal Engine ermöglichen Entwicklern die Erstellung
fotorealistische virtuelle Umgebungen zu erstellen. Hier simulieren Physik-Engines Licht, Schwerkraft und Objektinteraktionen, um
Bilder zu erzeugen, die authentisch aussehen. Dies wird oft in Verbindung mit
3D-Objekterkennungs-Workflows verwendet.
-
Generative Modelle: Fortgeschrittene Algorithmen wie
Generative Adversarische Netzwerke (GANs)
und Diffusionsmodelle lernen die zugrunde liegende
Struktur eines kleinen realen Datensatzes, um unendlich viele neue Variationen zu erzeugen. Tools wie
Stable Diffusion veranschaulichen, wie diese Modelle komplexe visuelle Daten von Grund auf
von Grund auf.
-
Domänen-Randomisierung: Um eine
einem bestimmten simulierten Aussehen zu verhindern, verwenden die Entwickler
die Domänen-Randomisierung. Diese Technik variiert Parameter wie
Beleuchtung, Textur und Kamerawinkel wild, so dass die KI gezwungen ist, die wesentlichen Merkmale eines Objekts zu lernen und nicht
das Hintergrundrauschen.
Anwendungsfälle in der Praxis
Synthetische Daten revolutionieren Branchen, in denen die Datenerfassung einen Engpass darstellt.
-
Autonome Fahrzeuge: Um selbstfahrende Autos zu trainieren, müssen sie Millionen von Fahrszenarien durchlaufen
Szenarien ausgesetzt werden, darunter auch seltene und gefährliche Ereignisse wie Fußgänger, die in den Verkehr laufen, oder schlechte Wetterbedingungen.
Diese Daten physisch zu sammeln, ist unsicher. Unternehmen wie Waymo nutzen
Simulationen, um ihre
autonomen Fahrzeuge über Milliarden von
virtuellen Meilen zu testen und ihre
Objekterkennungssysteme, ohne Leben zu riskieren.
-
Gesundheitswesen und medizinische Bildgebung: Patientenakten sind durch strenge Vorschriften wie den
HIPAA. Die gemeinsame Nutzung echter Röntgenbilder oder MRT-Scans zu Forschungszwecken ist oft
rechtlich kompliziert. Synthetische Daten ermöglichen es Forschern, realistische
medizinische Bildanalyse-Datensätze, die
die die statistischen Marker von Krankheiten enthalten, ohne dass sie
persönlich identifizierbare Informationen (PII) enthalten. Dies bewahrt
Datenschutz gewahrt und gleichzeitig werden Diagnoseinstrumente weiterentwickelt.
Synthetische Daten vs. Datenerweiterung
Es ist wichtig, zwischen synthetischen Daten und
Datenerweiterung zu unterscheiden, denn beide werden zur Verbesserung
Datensätze.
-
Bei der Datenerweiterung werden vorhandene Bilder aus der realen Welt verändert - gedreht, geschwenkt oder die Farbbalance verändert,
oder Ändern der Farbbalance, um die Vielfalt zu erhöhen. Mehr dazu erfahren Sie in der
YOLO Anleitung zur Datenerweiterung.
-
Synthetische Daten werden von Grund auf neu erstellt. Sie beruhen nicht auf der Änderung eines bestimmten Quellbildes, sondern
generiert völlig neue Instanzen, die die Erstellung von Szenarien ermöglichen, die möglicherweise nie von einer
Kamera aufgenommen wurden.
Integration mit Ultralytics YOLO
Synthetische Datensätze sind genau wie echte Datensätze formatiert, in der Regel mit Bildern und entsprechenden Anmerkungsdateien. Sie
können nahtlos modernste Modelle trainieren wie YOLO11 auf
auf diesen Daten trainieren, um die Leistung bei Nischenaufgaben zu steigern.
Das folgende Beispiel zeigt, wie man ein einfaches synthetisches Bild mit Hilfe von Code erzeugt und darauf Schlussfolgerungen zieht
die ultralytics Paket.
import cv2
import numpy as np
from ultralytics import YOLO
# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)
# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)
# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")