Guide

La guida definitiva alla data augmentation nel 2025

Scopri come la data augmentation delle immagini aiuti i modelli di Vision AI ad apprendere meglio, a migliorare la precisione e a performare in modo più efficace in situazioni reali.

ABAbirami Vina

6 min readFebruary 14, 2025

La data augmentation delle immagini crea diverse variazioni per l'addestramento della Vision AI

Grazie al boom dell'IA, fenomeni come i robot che lavorano nelle fabbriche e le auto a guida autonoma che percorrono le strade sono sempre più spesso sulle prime pagine. L'IA sta cambiando il modo in cui le macchine interagiscono con il mondo, dal miglioramento dell'imaging medico all'assistenza nel controllo qualità sulle linee di produzione.

Gran parte di questo progresso deriva dalla computer vision, un ramo dell'IA che permette alle macchine di comprendere e interpretare le immagini. Proprio come gli esseri umani imparano a riconoscere oggetti e pattern nel tempo, i modelli di vision AI come Ultralytics YOLO11 devono essere addestrati su grandi quantità di dati di immagini per sviluppare la loro comprensione visiva.

Tuttavia, raccogliere una tale vasta quantità di dati visivi non è sempre facile. Anche se la comunità di computer vision ha creato molti grandi datasets, questi possono comunque mancare di alcune variazioni, come immagini con oggetti in condizioni di scarsa illuminazione, elementi parzialmente nascosti o oggetti visti da angolazioni diverse. Queste differenze possono confondere i modelli di computer vision che sono stati addestrati solo in condizioni specifiche.

La data augmentation delle immagini è una tecnica che risolve questo problema introducendo nuove variazioni nei dati esistenti. Apportando modifiche alle immagini, come la regolazione dei colori, la rotazione o lo spostamento della prospettiva, il dataset diventa più diversificato, aiutando i modelli di vision AI a riconoscere meglio gli oggetti in situazioni reali.

In questo articolo, esploreremo come funziona la data augmentation delle immagini e l'impatto che può avere sulle applicazioni di computer vision.

Link to this sectionCos'è la data augmentation delle immagini?#

Immagina di cercare di riconoscere un amico tra la folla, ma che indossi occhiali da sole o che si trovi in un punto in ombra. Anche con questi piccoli cambiamenti nell'aspetto, sai ancora chi è. Al contrario, un modello di vision AI può avere difficoltà con tali variazioni a meno che non sia stato addestrato a riconoscere oggetti in contesti diversi.

La data augmentation delle immagini migliora le prestazioni dei modelli di computer vision aggiungendo versioni modificate di immagini esistenti ai dati di addestramento, invece di raccogliere migliaia di nuove immagini.

Modifiche alle immagini come il ribaltamento (flipping), la rotazione, la regolazione della luminosità o l'aggiunta di piccole distorsioni espongono i modelli di vision AI a una gamma più ampia di condizioni. Invece di fare affidamento su dataset enormi, i modelli possono apprendere in modo efficiente da dataset di addestramento più piccoli contenenti immagini aumentate.

Esempi di immagini aumentate di un'auto

Fig 1. Esempi di immagini aumentate di un'auto.

Link to this sectionL'importanza della data augmentation nella computer vision#

Ecco alcuni dei motivi principali per cui l'augmentation è essenziale per la computer vision:

Riduce i requisiti di dati: Raccogliere grandi dataset di immagini richiede tempo e risorse. L'augmentation può essere utilizzata per addestrare i modelli in modo efficace senza aver bisogno di dataset massicci.
Previene l'overfitting: Un modello addestrato su troppi pochi esempi potrebbe memorizzare i dettagli invece di riconoscere pattern generali. Aggiungere varietà tramite l'augmentation assicura che i modelli di vision AI imparino in un modo che sia applicabile a dati nuovi e mai visti prima.
Imita le immagini imperfette: Le immagini nei dataset sono spesso troppo perfette, ma le foto del mondo reale possono essere sfocate, oscurate o distorte. Aumentare le immagini con rumore, occlusioni o altre variazioni le rende più realistiche.
Migliora la robustezza del modello: L'addestramento con una varietà di immagini aiuta l'IA a gestire i cambiamenti del mondo reale, rendendola più affidabile in ambienti, condizioni di illuminazione e situazioni diverse.

Link to this sectionQuando dovresti usare la data augmentation delle immagini?#

La data augmentation delle immagini è particolarmente utile quando un modello di computer vision deve riconoscere oggetti in situazioni diverse ma non dispone di abbastanza immagini variegate.

Ad esempio, se i ricercatori stanno addestrando un modello di vision AI per identificare rare specie sottomarine che vengono fotografate raramente, il dataset potrebbe essere piccolo o privo di variazioni. Aumentando le immagini (regolando i colori per simulare diverse profondità dell'acqua, aggiungendo rumore per imitare condizioni torbide o alterando leggermente le forme per tenere conto del movimento naturale), il modello può imparare a rilevare oggetti sottomarini in modo più accurato.

Ecco altre situazioni in cui l'augmentation fa una grande differenza:

Bilanciamento del dataset: Alcuni oggetti possono apparire meno spesso nei dati di addestramento, rendendo i modelli di vision AI distorti (biased). L'augmentation aiuta a creare più esempi di oggetti rari in modo che il modello possa riconoscere equamente tutte le categorie.
Adattamento a diverse fotocamere: Le immagini possono apparire diverse a seconda del dispositivo. L'augmentation aiuta i modelli di vision AI a funzionare bene con foto che presentano risoluzioni, illuminazione e qualità differenti.
Correzione di piccoli errori di etichettatura: Leggeri spostamenti, ritagli o rotazioni aiutano i modelli di computer vision a riconoscere correttamente gli oggetti, anche se le etichette originali non sono perfettamente allineate.

Link to this sectionCome funziona la data augmentation delle immagini#

Ai primi tempi della computer vision, la data augmentation delle immagini riguardava principalmente tecniche base di elaborazione delle immagini come il ribaltamento, la rotazione e il ritaglio per aumentare la diversità del dataset. Con il miglioramento dell'IA, sono stati introdotti metodi più avanzati, come la regolazione dei colori (trasformazioni dello spazio colore), la nitidezza o la sfocatura delle immagini (filtri kernel) e la fusione di più immagini insieme (image mixing) per migliorare l'apprendimento.

L'augmentation può avvenire prima e durante l'addestramento del modello. Prima dell'addestramento, le immagini modificate possono essere aggiunte al dataset per fornire maggiore varietà. Durante l'addestramento, le immagini possono essere alterate casualmente in tempo reale, aiutando i modelli di vision AI ad adattarsi a diverse condizioni.

Questi cambiamenti vengono effettuati utilizzando trasformazioni matematiche. Ad esempio, la rotazione inclina un'immagine, il ritaglio rimuove parti per simulare viste diverse e i cambiamenti di luminosità simulano variazioni di illuminazione. La sfocatura ammorbidisce le immagini, la nitidezza rende i dettagli più chiari e l'image mixing combina parti di immagini diverse. I framework di vision AI e strumenti come OpenCV, TensorFlow e PyTorch possono automatizzare questi processi, rendendo l'augmentation rapida ed efficace.

Link to this sectionTecniche chiave di data augmentation delle immagini#

Ora che abbiamo discusso di cosa sia la data augmentation delle immagini, diamo un'occhiata più da vicino ad alcune tecniche fondamentali utilizzate per migliorare i dati di addestramento.

Link to this sectionRegolazione di orientamento e posizione#

I modelli di computer vision come YOLO11 spesso devono riconoscere oggetti da vari angoli e punti di vista. Per aiutare in questo, le immagini possono essere ribaltate orizzontalmente o verticalmente, in modo che il modello di IA impari a riconoscere gli oggetti da punti di vista differenti.

Allo stesso modo, ruotare leggermente le immagini ne cambia l'angolazione, consentendo al modello di identificare gli oggetti da molteplici prospettive. Inoltre, spostare le immagini in direzioni diverse (traslazione) aiuta i modelli ad adattarsi a piccoli cambiamenti posizionali. Queste trasformazioni assicurano che i modelli generalizzino meglio alle condizioni del mondo reale dove il posizionamento degli oggetti in un'immagine è imprevedibile.

Diversi metodi di aumento legati all'orientamento e alla posizione

Fig 2. Diversi metodi di augmentation relativi a orientamento e posizione.

Link to this sectionRidimensionamento e ritaglio#

Per quanto riguarda le soluzioni di computer vision del mondo reale, gli oggetti nelle immagini possono apparire a distanze e dimensioni variabili. I modelli di vision AI devono essere abbastanza robusti da rilevarli indipendentemente da queste differenze.

Per migliorare l'adattabilità, si possono utilizzare i seguenti metodi di augmentation:

Scalatura (Scaling): Il ridimensionamento cambia la dimensione dell'immagine mantenendo le sue proporzioni, consentendo ai modelli di IA di rilevare oggetti a distanze diverse.
Ritaglio (Cropping): Questo rimuove le parti non necessarie di un'immagine, aiutando il modello a concentrarsi sulle aree chiave e riducendo le distrazioni dello sfondo.
Shearing: Inclinare leggermente un'immagine simula un aspetto inclinato o allungato, aiutando l'IA a riconoscere gli oggetti da diverse angolazioni.

Questi adattamenti aiutano i modelli di computer vision a riconoscere gli oggetti anche se la loro dimensione o forma cambia leggermente.

Link to this sectionRegolazioni di prospettiva e distorsione#

Gli oggetti nelle immagini possono apparire in modo diverso a seconda dell'angolazione della fotocamera, rendendo il riconoscimento difficile per i modelli di computer vision. Per aiutare i modelli a gestire queste variazioni, le tecniche di augmentation possono regolare come gli oggetti vengono presentati nelle immagini.

Ad esempio, le trasformazioni di prospettiva possono cambiare l'angolo di visione, facendo apparire un oggetto come se fosse visto da una posizione diversa. Ciò consente ai modelli di vision AI di riconoscere gli oggetti anche quando sono inclinati o catturati da un punto di vista insolito.

Un altro esempio è una trasformazione elastica che allunga, piega o deforma le immagini per simulare distorsioni naturali, in modo che gli oggetti appaiano come farebbero nei riflessi o sotto pressione.

Link to this sectionModifiche a colore e illuminazione#

Le condizioni di illuminazione e le differenze di colore possono avere un impatto significativo sul modo in cui i modelli di vision AI interpretano le immagini. Poiché gli oggetti possono apparire diversi in varie impostazioni di luce, le seguenti tecniche di augmentation possono aiutare a gestire queste situazioni:

Regolazioni di luminosità e contrasto: Simulare diverse condizioni di illuminazione aiuta i modelli di vision AI a riconoscere gli oggetti sia in ambienti luminosi che in quelli scuri.
Color jittering: Cambiare casualmente tonalità, saturazione e bilanciamento del colore rende i modelli di computer vision più adattabili a diverse fotocamere e condizioni di illuminazione.
Conversione in scala di grigi: Convertire le immagini in bianco e nero incoraggia i modelli di vision AI a concentrarsi su forme e texture piuttosto che sul colore.

Esempi di aumenti legati alle variazioni di colore

Fig 3. Esempi di aumentazioni relative alle variazioni di colore.

Link to this sectionTecniche avanzate di data augmentation delle immagini#

Finora abbiamo esplorato solo tecniche di augmentation che modificano una singola immagine. Tuttavia, alcuni metodi avanzati coinvolgono la combinazione di più immagini per migliorare l'apprendimento dell'IA.

Ad esempio, MixUp fonde due immagini insieme, aiutando i modelli di computer vision a comprendere le relazioni tra gli oggetti e migliorando la loro capacità di generalizzare attraverso scenari diversi. CutMix fa un passo avanti sostituendo una sezione di un'immagine con una parte di un'altra, consentendo ai modelli di imparare da molteplici contesti all'interno della stessa immagine. Nel frattempo, CutOut funziona diversamente rimuovendo parti casuali di un'immagine, addestrando i modelli di vision AI a riconoscere gli oggetti anche quando sono parzialmente nascosti o ostruiti.

Tecniche avanzate di aumento dei dati immagine come MixUp, CutMix e CutOut

Fig 4. Tecniche avanzate di data augmentation delle immagini.

Link to this sectionIl ruolo dell'IA generativa nella data augmentation delle immagini#

L'IA generativa sta guadagnando terreno in molti settori e applicazioni quotidiane. Probabilmente l'avrai incontrata in relazione a immagini generate dall'IA, video deepfake o app che creano avatar realistici. Ma oltre alla creatività e all'intrattenimento, l'IA generativa gioca un ruolo cruciale nell'addestramento dei modelli di vision AI generando nuove immagini a partire da quelle esistenti.

Piuttosto che limitarsi a capovolgere o ruotare le immagini, può creare variazioni realistiche (cambiando espressioni facciali, stili di abbigliamento o persino simulando diverse condizioni meteorologiche). Queste variazioni aiutano i modelli di computer vision a diventare più adattabili e precisi in diversi scenari del mondo reale. Modelli avanzati di IA generativa come le GAN (Generative Adversarial Networks) e i modelli di diffusione possono anche colmare dettagli mancanti o creare immagini sintetiche di alta qualità.

Link to this sectionLimitazioni della data augmentation delle immagini#

Sebbene la data augmentation migliori i dataset di addestramento, ci sono anche alcune limitazioni da considerare. Ecco alcune sfide chiave relative alla data augmentation delle immagini:

Diversità dei dati limitata: Le immagini aumentate provengono da dati esistenti e non possono introdurre pattern completamente nuovi o prospettive rare.
Potenziale distorsione dei dati: Trasformazioni eccessive possono rendere le immagini non realistiche, riducendo potenzialmente l'accuratezza del modello in scenari del mondo reale.
Maggiore computazione: L'augmentation in tempo reale che avviene durante l'addestramento del modello può richiedere una notevole potenza di elaborazione, rallentando l'addestramento e aumentando l'utilizzo della memoria.
Lo squilibrio delle classi rimane: L'augmentation non crea campioni interamente nuovi, quindi le categorie sottorappresentate possono ancora portare a un apprendimento distorto.

Link to this sectionUn'applicazione del mondo reale della data augmentation delle immagini#

Un'interessante applicazione della data augmentation delle immagini è nelle auto a guida autonoma, dove le decisioni in frazioni di secondo prese dai modelli di computer vision come YOLO11 sono cruciali. Il modello deve essere in grado di rilevare strade, persone e altri oggetti in modo accurato.

Tuttavia, le condizioni del mondo reale che un veicolo a guida autonoma incontra possono essere imprevedibili. Il maltempo, il motion blur e i segnali nascosti possono rendere complesse le soluzioni di vision AI in questo settore. Addestrare modelli di computer vision solo con immagini del mondo reale spesso non è sufficiente. I dataset di immagini per i modelli nelle auto a guida autonoma devono essere diversificati in modo che il modello possa imparare a gestire situazioni impreviste.

La data augmentation delle immagini risolve questo problema simulando la nebbia, regolando la luminosità e distorcendo le forme. Questi cambiamenti aiutano i modelli a riconoscere gli oggetti in diverse condizioni. Di conseguenza, i modelli diventano più intelligenti e affidabili.

Con l'addestramento aumentato, le soluzioni di vision AI nelle auto a guida autonoma si adattano meglio e prendono decisioni più sicure. Risultati più accurati significano meno incidenti e una navigazione migliorata.

Aumento dei dati immagine applicato a immagini di auto a guida autonoma

Fig 5. Un esempio di data augmentation delle immagini riguardo alle auto a guida autonoma.

Le auto a guida autonoma sono solo un esempio. Infatti, la data augmentation delle immagini è cruciale in una vasta gamma di settori, dall'imaging medico all'analisi retail. Qualsiasi applicazione che si affida alla computer vision può potenzialmente beneficiare della data augmentation delle immagini.

Link to this sectionPunti chiave#

I sistemi di vision AI devono essere in grado di riconoscere gli oggetti in diverse condizioni, ma raccogliere infinite immagini del mondo reale per l'addestramento può essere difficile. La data augmentation delle immagini risolve questo problema creando variazioni di immagini esistenti, aiutando i modelli a imparare più velocemente e a ottenere prestazioni migliori in situazioni reali. Migliora l'accuratezza, assicurando che i modelli di vision AI come YOLO11 possano gestire illuminazione, angolazioni e ambienti differenti.

Per aziende e sviluppatori, la data augmentation delle immagini fa risparmiare tempo e fatica rendendo i modelli di computer vision più affidabili. Dall'assistenza sanitaria alle auto a guida autonoma, molti settori dipendono da essa. Mentre la Vision AI continua a evolversi, l'augmentation continuerà a essere una parte essenziale della costruzione di modelli più intelligenti e adattabili per il futuro.

Unisciti alla nostra community e visita il nostro repository GitHub per vedere l'IA in azione. Esplora le nostre opzioni di licenza e scopri di più sull'IA in agricoltura e sulla computer vision nella produzione sulle nostre pagine delle soluzioni.

Explore solutions

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

La guida definitiva alla data augmentation nel 2025

Link to this sectionCos'è la data augmentation delle immagini?#

Link to this sectionL'importanza della data augmentation nella computer vision#

Link to this sectionQuando dovresti usare la data augmentation delle immagini?#

Link to this sectionCome funziona la data augmentation delle immagini#

Link to this sectionTecniche chiave di data augmentation delle immagini#

Link to this sectionRegolazione di orientamento e posizione#

Link to this sectionRidimensionamento e ritaglio#

Link to this sectionRegolazioni di prospettiva e distorsione#

Link to this sectionModifiche a colore e illuminazione#

Link to this sectionTecniche avanzate di data augmentation delle immagini#

Link to this sectionIl ruolo dell'IA generativa nella data augmentation delle immagini#

Link to this sectionLimitazioni della data augmentation delle immagini#

Link to this sectionUn'applicazione del mondo reale della data augmentation delle immagini#

Link to this sectionPunti chiave#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!