Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Dati sintetici

Sblocca la potenza dei dati sintetici per AI/ML! Supera la scarsità di dati, i problemi di privacy e i costi, potenziando al contempo il training e l'innovazione del modello.

I dati sintetici sono informazioni generate artificialmente create per imitare i dati del mondo reale. Nei campi dell'intelligenza artificiale (AI) e del machine learning (ML), servono come una potente alternativa o integrazione ai dati del mondo reale per l'addestramento di modelli di AI. Raccogliere dataset del mondo reale estesi, di alta qualità e correttamente etichettati può essere costoso, richiedere molto tempo e talvolta essere impraticabile a causa delle normative sulla privacy o della rarità di determinati eventi. I dati sintetici forniscono una soluzione consentendo agli sviluppatori di generare vaste quantità di dati perfettamente etichettati su richiesta, affrontando queste limitazioni e accelerando lo sviluppo di robusti sistemi di computer vision (CV).

Come vengono generati i dati sintetici?

I dati sintetici possono essere creati utilizzando diverse tecniche avanzate, ognuna adatta a diverse applicazioni. Questi metodi consentono un controllo preciso sulle caratteristiche dei dati generati, come l'illuminazione, il posizionamento degli oggetti e le condizioni ambientali.

  • Modellazione e simulazione 3D: Gli sviluppatori utilizzano la computer grafica e ambienti di simulazione per creare mondi virtuali fotorealistici. Questo approccio è comune nella robotica e nei sistemi autonomi, dove i motori fisici possono simulare la fisica del mondo reale. Piattaforme come NVIDIA DRIVE Sim vengono utilizzate per generare dati per l'addestramento di auto a guida autonoma.
  • Modelli generativi: Tecniche come le Reti generative avversarie (GAN) e, più recentemente, i modelli di diffusione sono un componente fondamentale dell'AI generativa. Questi modelli apprendono gli schemi sottostanti dai dati reali per creare campioni realistici completamente nuovi. Questo è particolarmente utile per generare diversi volti umani o scene complesse.
  • Generazione procedurale: Questo metodo utilizza algoritmi e regole per creare automaticamente dati. È ampiamente utilizzato nello sviluppo di videogiochi per generare ambienti su larga scala e può essere adattato per produrre dati di addestramento vari con il minimo sforzo manuale.
  • Randomizzazione del dominio: Una tecnica in cui i parametri di una simulazione (come illuminazione, texture e posizioni degli oggetti) vengono intenzionalmente variati. Ciò aiuta il modello addestrato a generalizzare meglio dagli ambienti simulati a quelli del mondo reale, costringendolo a concentrarsi sulle caratteristiche essenziali. Un articolo fondamentale di Tobin et al. ha dimostrato la sua efficacia per la manipolazione robotica.

Applicazioni nel mondo reale

L'uso di dati sintetici si sta espandendo in molti settori, consentendo scoperte dove i dati del mondo reale rappresentano un collo di bottiglia.

  1. Veicoli autonomi: L'addestramento di auto a guida autonoma richiede dati provenienti da milioni di chilometri di guida, inclusi scenari rari e pericolosi come incidenti o condizioni meteorologiche estreme. È pericoloso e impraticabile raccogliere questi dati nel mondo reale. I dati sintetici consentono agli sviluppatori di simulare questi casi limite in un ambiente sicuro e controllato, migliorando la robustezza dei sistemi di object detection e di navigazione. Aziende come Waymo fanno molto affidamento sulla simulazione per i test e la convalida.
  2. IA nel settore sanitario: Nell'analisi di immagini mediche, i dati dei pazienti sono altamente sensibili e protetti da severe leggi sulla privacy come HIPAA. Inoltre, i dati per le malattie rare sono scarsi. I dati sintetici possono essere utilizzati per generare scansioni mediche realistiche (ad esempio, TC o MRI) senza compromettere la privacy dei dati. Ciò aiuta a creare dataset più ampi ed equilibrati, riducendo il bias dell'IA e migliorando l'accuratezza dei modelli diagnostici per condizioni come il rilevamento del cancro della pelle.

Dati sintetici vs. Data Augmentation

Sebbene sia i dati sintetici che l'data augmentation mirino a migliorare i dataset, operano in modo diverso.

  • Data Augmentation: Questa tecnica prevede l'applicazione di trasformazioni come rotazione, ritaglio o variazioni di colore a immagini esistenti del mondo reale. Aumenta la diversità del set di training creando versioni modificate dei dati originali. Puoi saperne di più sulle tecniche di augmentation utilizzate nei modelli Ultralytics YOLO.
  • Dati Sintetici: Ciò implica la creazione di dati completamente nuovi da zero utilizzando simulazioni o modelli generativi. Non derivano da punti dati esistenti e possono rappresentare scenari completamente assenti dal set di dati originale.

In sintesi, l'aumento dei dati varia i dati esistenti, mentre i dati sintetici creano nuovi dati. Entrambe sono tecniche potenti e possono essere combinate per costruire modelli di deep learning altamente robusti e accurati gestiti tramite piattaforme come Ultralytics HUB.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti