Cosa sono i dati sintetici nella computer vision? Una panoramica

Abirami Vina

5 minuti di lettura

4 luglio 2025

Scoprite come i dati sintetici per l'addestramento dei modelli di intelligenza artificiale vengono utilizzati nelle applicazioni di visione artificiale in una serie di settori come la sanità e la robotica.

I dati sono sempre stati un fattore trainante in campi come l'analisi e l'intelligenza artificiale (AI). Infatti, il modo in cui raccogliamo, generiamo e utilizziamo i dati sta plasmando il futuro dei sistemi intelligenti. Ad esempio, le auto a guida autonoma dipendono da milioni di immagini e sensori etichettati, dai segnali stradali ai movimenti dei pedoni, per imparare a percorrere le strade in sicurezza.

Uno dei tipi di dati più importanti che alimentano questo progresso, soprattutto in settori come i veicoli autonomi e la sicurezza, sono i dati visivi come immagini e video. 

In particolare, il campo dell'intelligenza artificiale che consente alle macchine di interpretare queste informazioni visive si chiama computer vision. Essa aiuta i sistemi a comprendere e analizzare gli input visivi proprio come fanno gli esseri umani, supportando attività come il riconoscimento facciale, il rilevamento dei segnali stradali e l'analisi delle immagini mediche. 

Tuttavia, la raccolta di set di dati visivi su larga scala e di alta qualità dal mondo reale può richiedere molto tempo, essere costosa e spesso sollevare problemi di privacy. Per questo motivo i ricercatori stanno esplorando attivamente il concetto di sfruttare i dati sintetici. 

I dati sintetici si riferiscono a immagini generate artificialmente che imitano fedelmente le immagini e i video del mondo reale. Vengono creati utilizzando tecniche come la modellazione 3D, le simulazioni al computer e i metodi di intelligenza artificiale generativa come le reti avversarie generative (GAN), che apprendono modelli dai dati reali per produrre nuovi esempi realistici.

Si prevede che i dati sintetici svolgeranno presto un ruolo fondamentale nello sviluppo dell'intelligenza artificiale : Gartner prevede che entro il 2030 diventeranno più essenziali dei dati reali. In questo articolo esploreremo cosa sono i dati sintetici nel contesto della computer vision, come vengono generati e dove vengono applicati negli scenari reali. Iniziamo!

Cosa sono i dati sintetici nella computer vision?

Supponiamo di voler addestrare un modello AI di visione per rilevare oggetti in ambienti e condizioni diverse. Affidarsi solo ai dati del mondo reale può essere difficile e talvolta limitante. 

Nel frattempo, i dati sintetici possono essere utilizzati per creare il giusto set di dati, contenente oggetti in varie condizioni create artificialmente. Utilizzando strumenti come la modellazione e le simulazioni 3D, gli sviluppatori possono generare immagini con un controllo preciso su fattori come l'illuminazione, gli angoli e il posizionamento degli oggetti. Questo, a sua volta, offre una maggiore flessibilità per l'addestramento dei modelli rispetto ai dati reali.

I dati sintetici sono particolarmente utili quando la raccolta di dati reali è difficile o impossibile. Ad esempio, l'addestramento di un modello per il riconoscimento di persone in un'ampia gamma di pose, come la corsa, l'accovacciamento o la posizione sdraiata, richiederebbe l'acquisizione di migliaia di foto in diverse impostazioni, angolazioni e condizioni di illuminazione. 

D'altra parte, con i dati sintetici, gli sviluppatori possono facilmente generare queste variazioni con etichette accurate, risparmiando tempo e fatica e migliorando le prestazioni del modello.

Figura 1. Un set di dati sintetici con diverse pose umane e variazioni di illuminazione(fonte).

Dati sintetici e dati reali nell'IA

Diamo poi un'occhiata più da vicino alle differenze tra dati sintetici e dati reali. Entrambi hanno pro e contro quando si tratta di addestrare modelli di intelligenza artificiale

Ad esempio, i dati sintetici sono utili quando i dati reali sono difficili da raccogliere, ma potrebbero non catturare tutti i dettagli della vita reale. Allo stesso tempo, i dati reali sono più autentici, ma possono essere difficili da reperire, richiedono molto tempo per essere etichettati e potrebbero non coprire tutte le situazioni.

Combinando dati sintetici e reali, gli sviluppatori possono ottenere il meglio di entrambi i mondi. Questo equilibrio aiuta i modelli di intelligenza artificiale ad apprendere in modo più accurato, a generalizzare meglio tra diversi scenari e a ridurre le distorsioni.

Figura 2. Dati sintetici e dati reali nell'IA. Immagine dell'autore.

Uno sguardo alla generazione di dati per i modelli di visione artificiale

Dalla costruzione di mondi virtuali con strumenti 3D alla generazione di immagini con l'AI generativa, ecco alcuni metodi comuni utilizzati per creare dati sintetici di addestramento per i modelli di visione artificiale:

  • Modellazione 3D: Gli sviluppatori utilizzano software 3D per creare oggetti e scene digitali. Ciò consente il pieno controllo di elementi quali l'illuminazione, gli angoli della telecamera e il posizionamento degli oggetti ed è utile per generare immagini realistiche di persone, veicoli e ambienti.

  • Simulazioni: Ricreano situazioni reali, come il traffico o gli ambienti industriali, utilizzando motori basati sulla fisica. Le simulazioni sono utili per generare in modo sicuro dati di addestramento in campi come la robotica e le auto a guida autonoma.

  • Reti generative avversarie: Le GAN sono un tipo di modello di apprendimento profondo composto da due reti: una che crea immagini e una che le valuta. Insieme, generano immagini altamente realistiche, come volti umani o vedute stradali, imparando da esempi reali.

  • Generazione procedurale: Questa tecnica utilizza regole predefinite o modelli matematici per generare automaticamente strutture visive complesse come terreni, edifici o texture. È spesso utilizzata nelle piattaforme di gioco e di simulazione e può produrre insiemi di dati diversificati su larga scala con un input umano minimo.

  • Randomizzazione del dominio: Può cambiare in modo casuale elementi come l'illuminazione, i colori e le forme degli oggetti nelle scene sintetiche. L'obiettivo di questa tecnica è aiutare i modelli a concentrarsi su ciò che conta davvero, rendendoli più adattabili agli ambienti reali.
Figura 3. Esempi di dati: (a) scene 3D basate su modelli, (b) scene multioggetto sintetiche e (c) immagini di set di dati reali(fonte).

Formazione di modelli di intelligenza artificiale con dati sintetici

Dopo aver discusso alcuni dei diversi metodi utilizzati per creare dati sintetici, vediamo come vengono utilizzati per l'addestramento dei modelli di intelligenza artificiale. 

Una volta generati, i dati sintetici possono di solito essere integrati direttamente nella pipeline di addestramento allo stesso modo dei dati reali. In genere includono le annotazioni necessarie, come le etichette degli oggetti, i riquadri di delimitazione o le maschere di segmentazione, il che significa che possono essere utilizzati per compiti di apprendimento supervisionato, in cui i modelli imparano da coppie di input-output etichettate, senza bisogno di etichettatura manuale.

Durante l'addestramento, il modello elabora immagini sintetiche per imparare a rilevare caratteristiche, riconoscere modelli e classificare oggetti. Questi dati possono essere utilizzati per costruire una versione iniziale del modello da zero o per arricchire un set di dati esistente, contribuendo a migliorare le prestazioni del modello.

In molti flussi di lavoro, i dati sintetici vengono utilizzati anche per il preaddestramento, fornendo ai modelli un'ampia comprensione di base prima di essere messi a punto con esempi reali. Allo stesso modo, vengono utilizzati per aumentare i set di dati introducendo variazioni controllate, come diverse condizioni di illuminazione, angoli o classi di oggetti rari, per migliorare la generalizzazione e ridurre l'overfitting. 

Combinando dati sintetici e reali, i team possono addestrare modelli più robusti che funzionano bene in un'ampia gamma di condizioni, riducendo al contempo il ricorso a una raccolta manuale di dati costosa e dispendiosa.

Applicazioni reali dei dati sintetici nella computer vision

Man mano che i dati sintetici diventano più pratici e accessibili, iniziamo a vederli adottati in una serie di casi d'uso dell'intelligenza artificiale della visione nel mondo reale. Esploriamo alcune delle applicazioni di maggior impatto nella computer vision in cui vengono utilizzati.

Utilizzo di dati sintetici per il rilevamento di oggetti nei veicoli autonomi

Per insegnare alle auto a guida autonoma a guidare in sicurezza è necessario addestrare i modelli su un'ampia gamma di scenari, comprese situazioni rare o pericolose. Tuttavia, la raccolta di dati reali per questi casi limite può essere impegnativa e talvolta non sicura. I dati sintetici possono aiutare a creare scene in cui i modelli possono imparare a rilevare gli oggetti in situazioni difficili. Possono anche simulare diverse configurazioni di sensori, il che è utile perché non tutte le auto a guida autonoma utilizzano lo stesso hardware.

La piattaforma DRIVE Sim di NVIDIA ne è un ottimo esempio. Crea dati sintetici di alta qualità utilizzando modelli 3D fotorealistici, ambienti virtuali e simulazioni di sensori. Può anche generare immagini di più angoli di guida da una singola immagine. L'uso di dati sintetici di questo tipo aiuta a ridurre la necessità di costosi test sul mondo reale, offrendo al contempo al modello la varietà necessaria per apprendere in modo efficace.

Figura 4. Creazione di più viste di guida da un'immagine(fonte).

Riduzione dei pregiudizi nell'IA di imaging medico con dati sintetici

I modelli di visione artificiale come Ultralytics YOLO11, che supportano compiti come il rilevamento di oggetti e la segmentazione di istanze, possono essere addestrati su misura per applicazioni di imaging medico. Tuttavia, i dati di addestramento del mondo reale spesso contengono pregiudizi, poiché potrebbero non rappresentare adeguatamente i pazienti di tutti i gruppi demografici.

Ad esempio, il cancro della pelle viene diagnosticato meno frequentemente nei soggetti con carnagione più scura, il che porta a dati limitati per queste popolazioni. Questo squilibrio può contribuire a diagnosi errate e a risultati sanitari diseguali, in particolare in campi come l'istopatologia, le radiografie del torace e la dermatologia.

Le immagini sintetiche possono contribuire a colmare questo gap di dati. Generando esempi aggiuntivi e diversificati, come anomalie dei tessuti, un'ampia gamma di condizioni polmonari e tonalità della pelle con diversi tipi di lesioni, i dati sintetici possono contribuire a migliorare le prestazioni dei modelli per i gruppi sottorappresentati. 

I ricercatori stanno attualmente lavorando allo sviluppo e alla convalida di set di dati sintetici per sostenere questi obiettivi. Stanno inoltre esplorando il modo in cui i dati sintetici possono essere utilizzati per testare strumenti medici e strategie di trattamento senza fare affidamento sulle cartelle cliniche dei pazienti reali, contribuendo ad accelerare la ricerca e proteggendo al contempo la privacy dei pazienti. Grazie a questo lavoro, i dati sintetici stanno aprendo la strada a sistemi di IA medica più inclusivi, accurati ed etici.

Progredire l'IA agricola con i dati sintetici per l'agricoltura di precisione

La creazione di sistemi di IA di visione per applicazioni agricole dipende dall'accesso a grandi quantità di dati etichettati. Tuttavia, la raccolta e l'etichettatura di immagini di colture, malattie e condizioni dei campi è lenta, costosa e spesso limitata da fattori quali il tempo, le stagioni di crescita o la difficoltà di raggiungere determinate aree. 

Queste sfide rendono difficile l'addestramento di modelli di visione computerizzata per gestire compiti come il rilevamento di malattie delle piante, il monitoraggio delle colture o la previsione dei rendimenti. È qui che i dati sintetici possono essere d'aiuto, imitando diversi ambienti agricoli per generare esempi di addestramento utili.

Figura 5. Uso di immagini sintetiche per migliorare il rilevamento delle malattie(fonte).

Punti di forza

L'uso di dati sintetici rappresenta un importante passo avanti nell'addestramento dei modelli di intelligenza artificiale, soprattutto per i sistemi di visione artificiale in aree in cui i dati del mondo reale sono limitati o difficili da ottenere. Piuttosto che affidarsi esclusivamente a foto o video reali, che possono essere costosi, richiedere tempo o sollevare problemi di privacy, i dati sintetici ci permettono di generare immagini realistiche ed etichettate su richiesta. 

In questo modo è più facile addestrare modelli di IA di visione per compiti come la guida autonoma, il rilevamento delle malattie o il monitoraggio delle colture. Con la continua evoluzione dell'IA, i dati sintetici sono destinati a svolgere un ruolo ancora più importante nell'accelerare l'innovazione e migliorare l'accessibilità nei vari settori.

Scoprite di più sull'IA nel nostro repository GitHub e unitevi alla nostra comunità in crescita. Scoprite l'impatto di applicazioni come l'IA nei veicoli autonomi e la computer vision in agricoltura. Esplorate le nostre opzioni di licenza e date vita ai vostri progetti Vision AI.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti