Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Synthetische Daten

Erschließen Sie die Leistungsfähigkeit synthetischer Daten für KI/ML! Überwinden Sie Datenknappheit, Datenschutzprobleme und Kosten und fördern Sie gleichzeitig Modelltraining und Innovation.

Synthetische Daten sind künstlich erzeugte Informationen, die die statistischen Eigenschaften und Muster von realen Daten nachahmen. Daten der realen Welt nachahmen. In den Bereichen maschinelles Lernen (ML) und Computer Vision (CV) dienen sie als leistungsstarke Ressource für die Entwicklung leistungsstarker Modelle, wenn die Beschaffung authentischer Daten schwierig, teuer oder Bedenken hinsichtlich der Privatsphäre. Im Gegensatz zu herkömmlichen Datensätzen, die aus physischen Ereignissen stammen, werden synthetische Daten programmiert oder programmiert oder simuliert, so dass Entwickler bei Bedarf riesige Bestände an perfekt beschrifteten Trainingsdaten auf Anfrage. Branchenanalysten von Gartner sagen voraus dass synthetische Daten bis 2030 echte Daten in KI-Modellen in den Schatten stellen werden, was einen grundlegenden Wandel bei der Entwicklung intelligenter Systeme gebaut werden.

Wie synthetische Daten erzeugt werden

Die Erstellung hochwertiger synthetischer Datensätze erfordert anspruchsvolle Techniken, die von der klassischen Computergrafik bis zur modernen generativen KI reichen. Diese Methoden stellen sicher, dass die künstlichen Daten vielfältig genug sind, damit die Modelle gut auf neue, unbekannte Szenarien verallgemeinert werden können.

  • 3D-Simulation und Rendering: Spiel-Engines wie Unity und Unreal Engine ermöglichen Entwicklern die Erstellung fotorealistische virtuelle Umgebungen zu erstellen. Hier simulieren Physik-Engines Licht, Schwerkraft und Objektinteraktionen, um Bilder zu erzeugen, die authentisch aussehen. Dies wird oft in Verbindung mit 3D-Objekterkennungs-Workflows verwendet.
  • Generative Modelle: Fortgeschrittene Algorithmen wie Generative Adversarische Netzwerke (GANs) und Diffusionsmodelle lernen die zugrunde liegende Struktur eines kleinen realen Datensatzes, um unendlich viele neue Variationen zu erzeugen. Tools wie Stable Diffusion veranschaulichen, wie diese Modelle komplexe visuelle Daten von Grund auf von Grund auf.
  • Domänen-Randomisierung: Um eine einem bestimmten simulierten Aussehen zu verhindern, verwenden die Entwickler die Domänen-Randomisierung. Diese Technik variiert Parameter wie Beleuchtung, Textur und Kamerawinkel wild, so dass die KI gezwungen ist, die wesentlichen Merkmale eines Objekts zu lernen und nicht das Hintergrundrauschen.

Anwendungsfälle in der Praxis

Synthetische Daten revolutionieren Branchen, in denen die Datenerfassung einen Engpass darstellt.

  • Autonome Fahrzeuge: Um selbstfahrende Autos zu trainieren, müssen sie Millionen von Fahrszenarien durchlaufen Szenarien ausgesetzt werden, darunter auch seltene und gefährliche Ereignisse wie Fußgänger, die in den Verkehr laufen, oder schlechte Wetterbedingungen. Diese Daten physisch zu sammeln, ist unsicher. Unternehmen wie Waymo nutzen Simulationen, um ihre autonomen Fahrzeuge über Milliarden von virtuellen Meilen zu testen und ihre Objekterkennungssysteme, ohne Leben zu riskieren.
  • Gesundheitswesen und medizinische Bildgebung: Patientenakten sind durch strenge Vorschriften wie den HIPAA. Die gemeinsame Nutzung echter Röntgenbilder oder MRT-Scans zu Forschungszwecken ist oft rechtlich kompliziert. Synthetische Daten ermöglichen es Forschern, realistische medizinische Bildanalyse-Datensätze, die die die statistischen Marker von Krankheiten enthalten, ohne dass sie persönlich identifizierbare Informationen (PII) enthalten. Dies bewahrt Datenschutz gewahrt und gleichzeitig werden Diagnoseinstrumente weiterentwickelt.

Synthetische Daten vs. Datenerweiterung

Es ist wichtig, zwischen synthetischen Daten und Datenerweiterung zu unterscheiden, denn beide werden zur Verbesserung Datensätze.

  • Bei der Datenerweiterung werden vorhandene Bilder aus der realen Welt verändert - gedreht, geschwenkt oder die Farbbalance verändert, oder Ändern der Farbbalance, um die Vielfalt zu erhöhen. Mehr dazu erfahren Sie in der YOLO Anleitung zur Datenerweiterung.
  • Synthetische Daten werden von Grund auf neu erstellt. Sie beruhen nicht auf der Änderung eines bestimmten Quellbildes, sondern generiert völlig neue Instanzen, die die Erstellung von Szenarien ermöglichen, die möglicherweise nie von einer Kamera aufgenommen wurden.

Integration mit Ultralytics YOLO

Synthetische Datensätze sind genau wie echte Datensätze formatiert, in der Regel mit Bildern und entsprechenden Anmerkungsdateien. Sie können nahtlos modernste Modelle trainieren wie YOLO11 auf auf diesen Daten trainieren, um die Leistung bei Nischenaufgaben zu steigern.

Das folgende Beispiel zeigt, wie man ein einfaches synthetisches Bild mit Hilfe von Code erzeugt und darauf Schlussfolgerungen zieht die ultralytics Paket.

import cv2
import numpy as np
from ultralytics import YOLO

# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)

# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)

# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten