Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Cos'è il dato sintetico nella computer vision? Una panoramica

Abirami Vina

5 minuti di lettura

4 luglio 2025

Scopri come i dati sintetici per l'addestramento di modelli AI vengono utilizzati nelle applicazioni di computer vision in una vasta gamma di settori come l'assistenza sanitaria e la robotica.

I dati sono sempre stati un fattore trainante in campi come l'analisi e l'intelligenza artificiale (IA). Infatti, il modo in cui raccogliamo, generiamo e utilizziamo i dati sta plasmando il futuro dei sistemi intelligenti. Ad esempio, le auto a guida autonoma dipendono da milioni di immagini etichettate e letture di sensori, dai segnali stradali ai movimenti dei pedoni, per imparare a navigare in sicurezza sulle strade.

Uno dei tipi di dati più importanti che alimentano questo progresso, soprattutto in aree come i veicoli autonomi e la sicurezza, sono i dati visivi come immagini e video. 

In particolare, il campo dell'IA che consente alle macchine di interpretare queste informazioni visive è chiamato computer vision. Aiuta i sistemi a comprendere e analizzare gli input visivi in modo simile agli esseri umani, supportando attività come il riconoscimento facciale, il rilevamento dei segnali stradali e l'analisi di immagini mediche. 

Tuttavia, raccogliere set di dati visivi su larga scala e di alta qualità dal mondo reale può richiedere molto tempo, essere costoso e spesso sollevare problemi di privacy. Ecco perché i ricercatori stanno esplorando attivamente il concetto di sfruttamento dei dati sintetici. 

I dati sintetici si riferiscono a immagini generate artificialmente che imitano da vicino immagini e video del mondo reale. Sono creati utilizzando tecniche come la modellazione 3D, le simulazioni al computer e metodi di IA generativa come le Reti generative avversarie (GAN), che apprendono modelli da dati reali per produrre nuovi esempi realistici.

Si prevede che i dati sintetici svolgeranno un ruolo fondamentale nello sviluppo dell'AI in futuro: Gartner prevede che entro il 2030 diventeranno più essenziali dei dati del mondo reale. In questo articolo, esploreremo cosa sono i dati sintetici nel contesto della computer vision, come vengono generati e dove vengono applicati in scenari del mondo reale. Iniziamo!

Cos'è il dato sintetico nella computer vision?

Supponiamo tu voglia addestrare un modello di Visione Artificiale per rilevare oggetti in diversi ambienti e condizioni. Affidarsi esclusivamente a dati reali può essere difficile e talvolta limitante. 

Nel frattempo, i dati sintetici possono essere utilizzati per creare il set di dati corretto, contenente oggetti in varie condizioni create artificialmente. Utilizzando strumenti come la modellazione 3D e le simulazioni, gli sviluppatori possono generare immagini con un controllo preciso su fattori come l'illuminazione, gli angoli e il posizionamento degli oggetti. Questo, a sua volta, offre maggiore flessibilità per l'addestramento del modello rispetto ai dati del mondo reale.

I dati sintetici sono particolarmente utili quando la raccolta di dati del mondo reale è difficile o impossibile. Ad esempio, addestrare un modello a riconoscere le persone in un'ampia gamma di pose, come correre, accovacciarsi o sdraiarsi, richiederebbe l'acquisizione di migliaia di foto in molte impostazioni, angolazioni e condizioni di illuminazione diverse. 

D'altra parte, con i dati sintetici, gli sviluppatori possono facilmente generare queste variazioni con etichette accurate, risparmiando tempo e fatica e migliorando le prestazioni del modello.

Fig. 1. Un dataset sintetico con diverse pose umane e variazioni di illuminazione (fonte).

Dati sintetici vs. dati reali nell'AI

Successivamente, esaminiamo più da vicino le differenze tra dati sintetici e dati reali. Entrambi hanno i loro pro e contro quando si tratta di addestrare modelli di IA

Ad esempio, i dati sintetici sono utili quando i dati reali sono difficili da raccogliere, ma potrebbero non catturare ogni piccolo dettaglio che si trova nella vita reale. Allo stesso tempo, i dati reali sono più autentici, ma possono essere difficili da reperire, richiedere molto tempo per essere etichettati e potrebbero non coprire ogni situazione.

Combinando dati sintetici e reali, gli sviluppatori possono ottenere il meglio da entrambi i mondi. Questo equilibrio aiuta i modelli di intelligenza artificiale a imparare in modo più accurato, a generalizzare meglio in diversi scenari e a ridurre i pregiudizi.

Fig. 2. Dati sintetici vs. dati reali nell'IA. Immagine dell'autore.

Uno sguardo alla generazione di dati per i modelli di computer vision

Dalla costruzione di mondi virtuali con strumenti 3D alla generazione di immagini utilizzando l'IA generativa, ecco alcuni metodi comuni utilizzati per creare dati di addestramento sintetici per modelli di computer vision:

  • Modellazione 3D: Gli sviluppatori utilizzano software 3D per creare oggetti e scene digitali. Ciò consente il pieno controllo su elementi come l'illuminazione, gli angoli di ripresa e il posizionamento degli oggetti, ed è utile per generare immagini realistiche di persone, veicoli e ambienti.

  • Simulazioni: Queste ricreano situazioni del mondo reale, come il traffico o gli ambienti di fabbrica, utilizzando motori basati sulla fisica. Le simulazioni sono utili per generare in modo sicuro dati di addestramento in settori come la robotica e le auto a guida autonoma.

  • Reti generative avversarie: Le GAN sono un tipo di modello di deep learning costituito da due reti: una che crea immagini e una che le valuta. Insieme, generano immagini altamente realistiche, come volti umani o viste stradali, imparando da esempi reali.

  • Generazione procedurale: Questa tecnica utilizza regole predefinite o modelli matematici per generare automaticamente strutture visive complesse come terreni, edifici o texture. Viene spesso utilizzata nelle piattaforme di gioco e simulazione e può produrre set di dati diversificati su larga scala con un minimo input umano.

  • Randomizzazione del dominio: Può modificare casualmente elementi come illuminazione, colori e forme degli oggetti in scene sintetiche. L'obiettivo di questa tecnica è aiutare i modelli a concentrarsi su ciò che conta davvero, rendendoli più adattabili agli ambienti del mondo reale.
Fig. 3. Esempi di dati: (a) basati su modelli 3D, (b) scene sintetiche multi-oggetto e (c) immagini di dataset reali (fonte).

Training di modelli Vision AI con dati sintetici.

Ora che abbiamo discusso alcuni dei diversi metodi utilizzati per creare dati sintetici, vediamo come vengono utilizzati per l'addestramento di modelli di intelligenza artificiale. 

Una volta generati, i dati sintetici possono solitamente essere integrati direttamente nella pipeline di addestramento nello stesso modo dei dati del mondo reale. In genere includono le annotazioni necessarie, come etichette di oggetti, bounding box o maschere di segmentazione, il che significa che possono essere utilizzati per attività di apprendimento supervisionato, in cui i modelli apprendono da coppie input-output etichettate, senza la necessità di etichettatura manuale.

Durante l'addestramento, il modello elabora immagini sintetiche per imparare a rilevare caratteristiche, riconoscere pattern e classificare oggetti. Questi dati possono essere utilizzati per costruire una versione iniziale del modello da zero o per arricchire un dataset esistente, contribuendo a migliorare le prestazioni del modello.

In molti flussi di lavoro, i dati sintetici vengono utilizzati anche per il pretraining, fornendo ai modelli un'ampia comprensione di base prima di essere messi a punto con esempi del mondo reale. Allo stesso modo, vengono utilizzati per aumentare i dataset introducendo variazioni controllate, come diverse condizioni di illuminazione, angolazioni o classi di oggetti rare, per migliorare la generalizzazione e ridurre l'overfitting. 

Combinando dati sintetici e reali, i team possono addestrare modelli più robusti che offrono buone prestazioni in un'ampia gamma di condizioni, riducendo al contempo la dipendenza da attività di raccolta dati manuali, costose e dispendiose in termini di tempo.

Applicazioni reali dei dati sintetici nella computer vision

Man mano che i dati sintetici diventano più pratici e accessibili, stiamo iniziando a vederli adottati in una varietà di casi d'uso reali di Vision AI. Esploriamo alcune delle applicazioni nella computer vision più incisive in cui vengono utilizzati.

Utilizzo di dati sintetici per il rilevamento di oggetti in veicoli autonomi

Insegnare alle auto a guida autonoma a guidare in sicurezza richiede l'addestramento di modelli su una vasta gamma di scenari, comprese situazioni rare o pericolose. Tuttavia, la raccolta di dati reali per questi casi limite può essere impegnativa e talvolta non sicura. I dati sintetici possono aiutare a creare scene in cui i modelli possono imparare a rilevare oggetti in situazioni difficili. Possono anche imitare diverse configurazioni di sensori, il che è utile perché non tutte le auto a guida autonoma utilizzano lo stesso hardware.

La piattaforma DRIVE Sim di NVIDIA ne è un ottimo esempio. Crea dati sintetici di alta qualità utilizzando modelli 3D fotorealistici, ambienti virtuali e simulazioni di sensori. Può anche generare immagini di più angolazioni di guida da una singola immagine. L'utilizzo di dati sintetici come questo aiuta a ridurre la necessità di costosi test nel mondo reale, fornendo comunque al modello la varietà di cui ha bisogno per apprendere efficacemente.

Fig. 4. Creazione di viste di guida multiple da una singola immagine (source).

Ridurre il bias nell'IA per l'imaging medico con dati sintetici

I modelli di computer vision come Ultralytics YOLO11 che supportano attività come l'object detection e la segmentazione delle istanze possono essere addestrati su misura per applicazioni di imaging medicale. Tuttavia, i dati di addestramento del mondo reale contengono spesso bias, in quanto potrebbero non rappresentare adeguatamente i pazienti di tutti i gruppi demografici.

Ad esempio, il cancro della pelle viene diagnosticato meno frequentemente negli individui con tonalità della pelle più scura, il che porta a dati limitati per quelle popolazioni. Questo squilibrio può contribuire a diagnosi errate e risultati sanitari iniqui, in particolare in settori come l'istopatologia, le radiografie del torace e la dermatologia.

Le immagini sintetiche possono contribuire a colmare questa lacuna nei dati. Generando esempi aggiuntivi e diversificati, come diverse anomalie tissutali, un'ampia gamma di condizioni polmonari e tonalità della pelle con diversi tipi di lesioni, i dati sintetici possono aiutare a migliorare le prestazioni del modello tra i gruppi sottorappresentati. 

I ricercatori stanno attualmente lavorando allo sviluppo e alla convalida di dataset sintetici a supporto di questi obiettivi. Stanno anche esplorando come i dati sintetici possano essere utilizzati per testare strumenti medici e strategie di trattamento senza fare affidamento su cartelle cliniche reali, contribuendo ad accelerare la ricerca e proteggendo al contempo la privacy dei pazienti. Grazie a questo lavoro, i dati sintetici stanno aprendo la strada a sistemi di IA medica più inclusivi, accurati ed etici.

Progresso dell'IA agricola con dati sintetici per l'agricoltura di precisione

La creazione di sistemi di Vision AI per applicazioni agricole dipende dall'accesso a grandi quantità di dati etichettati. Tuttavia, la raccolta e l'etichettatura di immagini di colture, malattie e condizioni del campo è lenta, costosa e spesso limitata da fattori come il clima, le stagioni di crescita o la difficoltà di raggiungere determinate aree. 

Queste sfide rendono difficile l'addestramento di modelli di computer vision per gestire attività come il rilevamento di malattie delle piante, il monitoraggio delle colture o la previsione dei raccolti. È qui che i dati sintetici possono aiutare, imitando diversi ambienti agricoli per generare esempi di addestramento utili.

Fig. 5. Utilizzo di immagini sintetiche per migliorare il rilevamento di malattie (fonte).

Punti chiave

L'utilizzo di dati sintetici rappresenta un importante passo avanti nell'addestramento dei modelli AI, soprattutto per i sistemi di computer vision in aree in cui i dati del mondo reale sono limitati o difficili da ottenere. Invece di fare affidamento esclusivamente su foto o video reali, che possono essere costosi, richiedere molto tempo o sollevare problemi di privacy, i dati sintetici ci consentono di generare immagini realistiche ed etichettate su richiesta. 

Semplifica l'addestramento di modelli di Vision AI per attività quali la guida autonoma, il rilevamento di malattie o il monitoraggio delle colture. Con la continua evoluzione dell'IA, i dati sintetici sono destinati a svolgere un ruolo ancora più importante nell'accelerare l'innovazione e migliorare l'accessibilità in tutti i settori.

Scopri di più sull'AI nel nostro repository GitHub e unisciti alla nostra community in crescita. Esplora l'impatto di applicazioni come l'AI nei veicoli autonomi e la computer vision in agricoltura. Esplora le nostre opzioni di licenza e dai vita ai tuoi progetti di Vision AI.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti