Glossario

Aumento dei dati

Migliorate i vostri modelli di apprendimento automatico con l'aumento dei dati. Scoprite le tecniche per aumentare l'accuratezza, ridurre l'overfitting e migliorare la robustezza.

L'aumento dei dati è una tecnica fondamentale nell'apprendimento automatico (ML), utilizzata per aumentare artificialmente la dimensione e la diversità di un set di dati di addestramento. Ciò si ottiene creando versioni modificate, ma realistiche, di campioni di dati esistenti. L'obiettivo principale è quello di migliorare le prestazioni e la robustezza dei modelli di intelligenza artificiale, in particolare nella computer vision (CV), esponendoli a una maggiore varietà di condizioni durante l'addestramento. Questo aiuta a prevenire l'overfitting, quando un modello apprende troppo bene i dati di addestramento ma non riesce a generalizzarsi a nuovi dati non visti, portando in definitiva a una maggiore accuratezza del modello.

Come funziona l'aumento dei dati

Nella computer vision, l'aumento dei dati comporta l'applicazione di una serie di trasformazioni alle immagini. Queste trasformazioni sono progettate per simulare le variazioni del mondo reale che un modello potrebbe incontrare dopo la distribuzione. Le tecniche più comuni includono:

  • Trasformazioni geometriche: Alterano l'orientamento spaziale di un'immagine. Gli esempi includono rotazioni casuali, scalature, traslazioni (spostamenti), ritagli e capovolgimenti (orizzontali o verticali). Queste trasformazioni insegnano al modello a essere invariante rispetto alla posizione e all'orientamento dell'oggetto.
  • Trasformazioni dello spazio colore: Modificano le proprietà del colore di un'immagine. Le regolazioni di luminosità, contrasto, saturazione e tonalità rendono il modello più resistente ai cambiamenti delle condizioni di illuminazione.
  • Tecniche avanzate: I metodi più complessi comportano un'alterazione più significativa del contenuto dell'immagine. Possono includere l'aggiunta di rumore casuale (come il rumore gaussiano), l'applicazione di effetti di sfocatura o l'uso di metodi come Mixup, che crea nuove immagini combinando linearmente due immagini esistenti, e Cutout, che rimuove in modo casuale regioni di un'immagine. Per saperne di più su questi metodi, consultare la Guida definitiva all'incremento dei dati.

Molti framework di deep learning, come PyTorch e TensorFlow, forniscono strumenti per l'aumento dei dati. Librerie specializzate come Albumentations offrono una vasta collezione di tecniche di incremento ad alte prestazioni e si integrano con modelli come Ultralytics YOLO11 per diversificare i dati di addestramento senza soluzione di continuità.

Applicazioni del mondo reale

L'aumento dei dati è una pratica standard in molti settori per costruire sistemi di intelligenza artificiale più affidabili.

  1. L'intelligenza artificiale nell'assistenza sanitaria: Nell'analisi delle immagini mediche, i set di dati sono spesso piccoli a causa delle norme sulla privacy dei pazienti e della rarità di alcune malattie. Per addestrare un modello per il rilevamento dei tumori nelle scansioni, le tecniche di aumento come la rotazione, il ridimensionamento e le modifiche della luminosità creano un insieme più diversificato di esempi di addestramento. Questo aiuta il modello a identificare con precisione le anomalie indipendentemente dalle variazioni delle apparecchiature di imaging o del posizionamento del paziente, migliorando l'affidabilità diagnostica.
  2. L'intelligenza artificiale per l'industria automobilistica: Lo sviluppo di robusti sistemi di rilevamento degli oggetti per i veicoli autonomi richiede dati provenienti da innumerevoli scenari di guida. Invece di raccogliere dati per ogni possibile condizione, l'aumento può simulare diverse condizioni atmosferiche (ad esempio, aggiungendo pioggia o neve sintetica), illuminazione (giorno, crepuscolo, notte) e occlusioni (ad esempio, un pedone parzialmente nascosto da un'altra auto). In questo modo il sistema di percezione del veicolo diventa più affidabile negli ambienti imprevedibili del mondo reale.

Altre applicazioni significative sono l'intelligenza artificiale nel settore manifatturiero per il controllo della qualità e l'intelligenza artificiale in agricoltura per rilevare le malattie delle colture in condizioni di campo variabili.

Aumento dei dati e concetti correlati

È importante distinguere l'aumento dei dati da altre tecniche legate ai dati.

  • Dati sintetici: Entrambi i metodi, pur migliorando le serie di dati, operano in modo diverso. L'aumento dei dati modifica i dati reali esistenti. Al contrario, la generazione di dati sintetici crea dati artificiali completamente nuovi, partendo da zero, utilizzando simulazioni o modelli generativi come le GAN. Mentre l'aumento dei dati espande la varianza intorno ai dati osservati, i dati sintetici possono creare scenari inediti non presenti nel set di dati originale, un concetto esplorato in questa panoramica sui dati sintetici nella computer vision.
  • Pulizia dei dati: La pulizia dei dati è una parte della più ampia pipeline di preelaborazione dei dati che si concentra sull'identificazione e la correzione di errori, incoerenze e imprecisioni in un set di dati. Il suo obiettivo è migliorare la qualità dei dati. L'incremento dei dati, invece, riguarda l'aumento della quantità e della varietà dei dati. Un set di dati pulito è il punto di partenza ideale prima di applicare l'incremento.
  • Trasferimento di apprendimento: Questa tecnica prevede l'utilizzo di un modello pre-addestrato su un ampio set di dati di riferimento, come ImageNet, e la successiva messa a punto su un set di dati più piccolo e specifico per il compito. Durante la fase di messa a punto si ricorre spesso all'aumento dei dati per migliorare ulteriormente le prestazioni ed evitare l'overfitting sui nuovi dati.

Piattaforme come Ultralytics HUB semplificano l'intero processo di addestramento dei modelli, incorporando l'aumento dei dati come passo fondamentale per aiutare gli utenti a costruire modelli di IA di visione potenti e all'avanguardia.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti