Dati sintetici
Liberate la potenza dei dati sintetici per l'AI/ML! Superate la scarsità di dati, i problemi di privacy e i costi, aumentando la formazione e l'innovazione dei modelli.
I dati sintetici sono informazioni generate artificialmente per imitare i dati del mondo reale. Nei campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), servono come potente alternativa o integrazione ai dati reali per l'addestramento dei modelli di AI. La raccolta di set di dati reali ampi, di alta qualità e correttamente etichettati può essere costosa, lunga e talvolta impraticabile a causa delle norme sulla privacy o della rarità di alcuni eventi. I dati sintetici rappresentano una soluzione che consente agli sviluppatori di generare su richiesta grandi quantità di dati perfettamente etichettati, affrontando queste limitazioni e accelerando lo sviluppo di robusti sistemi di computer vision (CV).
Come vengono generati i dati sintetici?
I dati sintetici possono essere creati con diverse tecniche avanzate, ciascuna adatta a diverse applicazioni. Questi metodi consentono un controllo preciso delle caratteristiche dei dati generati, come l'illuminazione, il posizionamento degli oggetti e le condizioni ambientali.
- Modellazione e simulazione 3D: Gli sviluppatori utilizzano la grafica computerizzata e gli ambienti di simulazione per creare mondi virtuali fotorealistici. Questo approccio è comune nella robotica e nei sistemi autonomi, dove i motori fisici possono simulare la fisica del mondo reale. Piattaforme come NVIDIA DRIVE Sim vengono utilizzate per generare dati per l'addestramento delle auto a guida autonoma.
- Modelli generativi: Tecniche come le reti avversarie generative (GAN) e, più recentemente, i modelli di diffusione sono una componente fondamentale dell'IA generativa. Questi modelli apprendono i modelli sottostanti dai dati reali per creare campioni completamente nuovi e realistici. Ciò è particolarmente utile per generare volti umani diversi o scene complesse.
- Generazione procedurale: Questo metodo utilizza algoritmi e regole per creare automaticamente i dati. È ampiamente utilizzato nello sviluppo di videogiochi per generare ambienti su larga scala e può essere adattato per produrre dati di addestramento variegati con il minimo sforzo manuale.
- Randomizzazione del dominio: Una tecnica in cui i parametri di una simulazione (come l'illuminazione, le texture e la posizione degli oggetti) vengono intenzionalmente variati. Questo aiuta il modello addestrato a generalizzare meglio dagli ambienti simulati a quelli reali, costringendolo a concentrarsi sulle caratteristiche essenziali. Un lavoro fondamentale di Tobin et al. ne ha dimostrato l'efficacia per la manipolazione robotica.
Applicazioni del mondo reale
L'uso di dati sintetici si sta espandendo in molti settori, consentendo di fare progressi laddove i dati reali rappresentano un ostacolo.
- Veicoli autonomi: La formazione delle auto a guida autonoma richiede dati provenienti da milioni di chilometri di guida, compresi scenari rari e pericolosi come incidenti o condizioni meteorologiche estreme. Non è sicuro e non è pratico raccogliere questi dati nel mondo reale. I dati sintetici consentono agli sviluppatori di simulare questi casi limite in un ambiente sicuro e controllato, migliorando la robustezza dei sistemi di rilevamento degli oggetti e di navigazione. Aziende come Waymo fanno molto affidamento sulla simulazione per i test e la convalida.
- L'intelligenza artificiale nell'assistenza sanitaria: Nell'analisi delle immagini mediche, i dati dei pazienti sono altamente sensibili e protetti da leggi severe sulla privacy come la HIPAA. Inoltre, i dati relativi alle malattie rare sono scarsi. I dati sintetici possono essere utilizzati per generare scansioni mediche realistiche (ad esempio, TC o RM) senza compromettere la privacy dei dati. Ciò contribuisce a creare insiemi di dati più ampi ed equilibrati, riducendo le distorsioni dell'IA e migliorando l'accuratezza dei modelli diagnostici per condizioni come il rilevamento del cancro della pelle.
Dati sintetici e aumento dei dati
Sebbene sia i dati sintetici che l'incremento dei dati mirino a migliorare le serie di dati, essi operano in modo diverso.
- Aumento dei dati: Questa tecnica prevede l'applicazione di trasformazioni come la rotazione, il ritaglio o il cambio di colore a immagini esistenti del mondo reale. Aumenta la diversità del set di formazione creando versioni modificate dei dati originali. Per saperne di più sugli aumenti utilizzati nei modelli YOLO di Ultralytics.
- Dati sintetici: Si tratta di creare dati completamente nuovi da zero utilizzando simulazioni o modelli generativi. Non sono derivati da punti di dati esistenti e possono rappresentare scenari completamente assenti dal set di dati originale.
In sintesi, l'aumento dei dati varia i dati esistenti, mentre i dati sintetici creano nuovi dati. Entrambe le tecniche sono potenti e possono essere combinate per costruire modelli di deep learning altamente robusti e accurati, gestiti da piattaforme come Ultralytics HUB.