Dati sintetici
Sblocca la potenza dei dati sintetici per AI/ML! Supera la scarsità di dati, i problemi di privacy e i costi, potenziando al contempo il training e l'innovazione del modello.
I dati sintetici si riferiscono a informazioni generate artificialmente che imitano le proprietà e i modelli statistici dei dati reali.
dati del mondo reale. Nei campi dell'apprendimento
apprendimento automatico (ML) e della
visione computerizzata (CV), servono come una potente
per lo sviluppo di modelli ad alte prestazioni quando l'ottenimento di dati autentici è difficile, costoso o limitato da problemi di privacy.
dalla privacy. A differenza dei set di dati tradizionali raccolti da eventi fisici, i dati sintetici sono programmati o simulati.
simulati, consentendo agli sviluppatori di creare vasti archivi di dati di addestramento perfettamente etichettati.
dati di addestramento perfettamente etichettati su richiesta. Gli analisti del settore di
Gartner prevedono
Gartner prevedono che entro il 2030 i dati sintetici metteranno in ombra i dati reali nei modelli di IA, determinando un cambiamento importante nel modo in cui vengono costruiti i sistemi intelligenti.
intelligenti.
Come vengono generati i dati sintetici
La creazione di insiemi di dati sintetici di alta qualità richiede tecniche sofisticate che spaziano dalla classica computer graphics
alla moderna IA generativa. Questi metodi assicurano che
i dati artificiali siano sufficientemente diversificati da aiutare i modelli a generalizzarsi bene a nuovi scenari inediti.
-
Simulazione e rendering 3D: Motori di gioco come
Unity e
Unreal Engine permettono agli sviluppatori di costruire
ambienti virtuali fotorealistici. I motori fisici simulano la luce, la gravità e le interazioni tra gli oggetti per produrre immagini autentiche.
produrre immagini dall'aspetto autentico. Questo viene spesso utilizzato in combinazione con
flussi di lavoro di rilevamento degli oggetti 3D.
-
Modelli generativi: Algoritmi avanzati come
le reti avversarie generative (GAN)
e i modelli di diffusione apprendono la struttura
struttura di un piccolo insieme di dati reali per generare infinite nuove variazioni. Strumenti come
Diffusione stabile esemplificano come questi modelli possano creare dati visivi complessi da
da zero.
-
Randomizzazione del dominio: Per evitare l'adattamento eccessivo
di un aspetto simulato specifico, gli sviluppatori
utilizzano la randomizzazione del dominio. Questa tecnica varia parametri come
illuminazione, texture e angolo di ripresa, costringendo l'intelligenza artificiale ad apprendere le caratteristiche essenziali di un oggetto piuttosto che il rumore di fondo.
il rumore di fondo.
Applicazioni nel mondo reale
I dati sintetici stanno rivoluzionando i settori in cui la raccolta dei dati è un collo di bottiglia.
-
Veicoli autonomi: Per addestrare le auto a guida autonoma è necessario esporle a milioni di scenari di guida, compresi eventi rari e pericolosi come
scenari di guida, compresi eventi rari e pericolosi come pedoni che si lanciano nel traffico o condizioni meteorologiche avverse.
Raccogliere fisicamente questi dati non è sicuro. Aziende come Waymo utilizzano
simulazione per testare i loro
veicoli autonomi attraverso miliardi di
chilometri virtuali, perfezionando i loro sistemi di
sistemi di rilevamento degli oggetti senza rischiare la vita.
-
Sanità e imaging medico: Le cartelle cliniche dei pazienti sono protette da normative rigorose come la
HIPAA. La condivisione di vere radiografie o risonanze magnetiche per la ricerca è spesso
legalmente complessa. I dati sintetici consentono ai ricercatori di generare set di dati realistici
realistici di analisi delle immagini mediche che
che conservano i marcatori statistici delle malattie senza contenere alcuna
informazioni di identificazione personale (PII). In questo modo si preserva
privacy dei dati e allo stesso tempo di far progredire gli strumenti diagnostici.
Dati sintetici vs. Data Augmentation
È importante distinguere tra dati sintetici e
dati sintetici e l'aumento dei dati, in quanto entrambi sono utilizzati per migliorare
insiemi di dati.
-
L'aumento dei dati prende le immagini esistenti del mondo reale e le modifica - capovolgendole, ruotandole o cambiando il bilanciamento dei colori - per aumentare la varietà,
o cambiando il bilanciamento del colore per aumentare la varietà. Per saperne di più, consultare la
Guida all'aumento dei datiYOLO .
-
I dati sintetici vengono creati da zero. Non si basa sulla modifica di un'immagine sorgente specifica, ma genera istanze completamente nuove.
ma genera istanze completamente nuove, consentendo la creazione di scenari che non sono mai stati ripresi da una telecamera.
fotocamera.
Integrazione con Ultralytics YOLO
I set di dati sintetici sono formattati come i set di dati reali, di solito con immagini e file di annotazione corrispondenti. È possibile
è possibile addestrare senza problemi modelli all'avanguardia come YOLO11 su questi dati
su questi dati per aumentare le prestazioni in compiti di nicchia.
L'esempio seguente mostra come generare una semplice immagine sintetica usando il codice ed eseguire l'inferenza su di essa usando
il ultralytics pacchetto.
import cv2
import numpy as np
from ultralytics import YOLO
# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)
# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)
# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")