La guida definitiva all'aumento dei dati nel 2025

Abirami Vina

6 minuti di lettura

14 febbraio 2025

Scoprite come l'aumento dei dati delle immagini aiuta i modelli Vision AI ad apprendere meglio, a migliorare l'accuratezza e a operare in modo più efficace nelle situazioni reali.

Grazie al boom dell'IA, fenomeni come i robot che lavorano nelle fabbriche e le auto a guida autonoma che percorrono le strade fanno sempre più spesso notizia. L'IA sta cambiando il modo in cui le macchine interagiscono con il mondo, dal miglioramento della diagnostica per immagini in campo medico all'assistenza nel controllo di qualità sulle linee di produzione.

Gran parte di questo progresso deriva dalla computer vision, una branca dell'IA che consente alle macchine di comprendere e interpretare le immagini. Proprio come gli esseri umani imparano a riconoscere gli oggetti e i modelli nel tempo, i modelli di IA di visione come Ultralytics YOLO11 devono essere addestrati su grandi quantità di dati di immagini per sviluppare la loro comprensione visiva.

Tuttavia, raccogliere una tale quantità di dati visivi non è sempre facile. Anche se la comunità della computer vision ha creato molti set di dati di grandi dimensioni, possono ancora mancare alcune variazioni, come immagini con oggetti in condizioni di scarsa illuminazione, elementi parzialmente nascosti o oggetti visti da angolazioni diverse. Queste differenze possono confondere i modelli di computer vision che sono stati addestrati solo su condizioni specifiche.

L 'aumento dei dati delle immagini è una tecnica che risolve questo problema introducendo nuove variazioni nei dati esistenti. Apportando modifiche alle immagini, come la regolazione dei colori, la rotazione o lo spostamento della prospettiva, il set di dati diventa più vario, aiutando i modelli Vision AI a riconoscere meglio gli oggetti in situazioni reali.

In questo articolo esploreremo come funziona l'aumento dei dati delle immagini e l'impatto che può avere sulle applicazioni di computer vision.

Che cos'è l'aumento dei dati di immagine?

Supponiamo che stiate cercando di riconoscere un amico in mezzo alla folla, ma che indossi gli occhiali da sole o si trovi in una zona d'ombra. Anche con questi piccoli cambiamenti nell'aspetto, si riesce comunque a riconoscerlo. D'altra parte, un modello di intelligenza artificiale di visione potrebbe avere difficoltà a gestire tali variazioni, a meno che non sia stato addestrato a riconoscere oggetti in contesti diversi.

L'incremento dei dati di immagine migliora le prestazioni dei modelli di computer vision aggiungendo versioni modificate di immagini esistenti ai dati di addestramento, invece di raccogliere migliaia di nuove immagini. 

Modifiche alle immagini come il capovolgimento, la rotazione, la regolazione della luminosità o l'aggiunta di piccole distorsioni espongono i modelli Vision AI a una gamma più ampia di condizioni. Invece di affidarsi a serie di dati enormi, i modelli possono imparare in modo efficiente da serie di dati di addestramento più piccole con immagini aumentate. 

__wf_reserved_inherit
Figura 1. Esempi di immagini aumentate di un'automobile.

L'importanza dell'aumento dei dati nella computer vision

Ecco alcuni dei motivi principali per cui l'aumento è essenziale per la computer vision:

  • Riduce i requisiti di dati: La raccolta di grandi set di dati di immagini richiede tempo e risorse. L'aumento può essere utilizzato per addestrare i modelli in modo efficace, senza bisogno di set di dati enormi.
  • Previene l'overfitting: Un modello addestrato su un numero insufficiente di esempi può memorizzare dettagli invece di riconoscere modelli generali. L'aggiunta di varietà attraverso l'incremento assicura che i modelli Vision AI imparino in modo da applicarsi a dati nuovi e non visti.
  • Imita immagini imperfette: Le immagini nei dataset sono spesso troppo perfette, ma le foto del mondo reale possono essere sfocate, oscurate o distorte. Aumentare le immagini con rumore, occlusioni o altre variazioni le rende più realistiche.
  • Migliora la robustezza del modello: L'addestramento con una varietà di immagini aiuta l'intelligenza artificiale a gestire i cambiamenti del mondo reale, rendendola più affidabile in ambienti, condizioni di illuminazione e situazioni diverse.

Quando utilizzare l'aumento dei dati di immagine?

L'aumento dei dati di immagine è particolarmente utile quando un modello di computer vision deve riconoscere oggetti in situazioni diverse, ma non dispone di immagini sufficientemente varie. 

Ad esempio, se i ricercatori stanno addestrando un modello Vision AI per identificare specie subacquee rare che vengono fotografate di rado, il set di dati potrebbe essere piccolo o privo di variazioni. Aumentando le immagini - regolando i colori per simulare le diverse profondità dell'acqua, aggiungendo rumore per simulare le condizioni di torbidità o alterando leggermente le forme per tenere conto del movimento naturale - il modello può imparare a rilevare gli oggetti subacquei con maggiore precisione.

Ecco alcune altre situazioni in cui l'aumento di volume fa una grande differenza:

  • Bilanciamento del set di dati: Alcuni oggetti possono comparire meno spesso nei dati di addestramento, rendendo i modelli Vision AI parziali. L'incremento aiuta a creare più esempi di oggetti rari, in modo che il modello possa riconoscere tutte le categorie in modo equo.
  • Adattamento a fotocamere diverse: Le immagini possono apparire diverse a seconda del dispositivo. Il potenziamento aiuta i modelli Vision AI a funzionare bene su foto con risoluzioni, illuminazione e qualità diverse.
  • Correzione di piccoli errori di etichettatura: Lievi spostamenti, ritagli o rotazioni aiutano i modelli di visione artificiale a riconoscere correttamente gli oggetti, anche se le etichette originali non sono perfettamente allineate.

Come funziona l'aumento dei dati delle immagini

Agli albori della computer vision, l'aumento dei dati delle immagini riguardava principalmente tecniche di elaborazione delle immagini di base, come il capovolgimento, la rotazione e il ritaglio per aumentare la diversità del set di dati. Con il miglioramento dell'intelligenza artificiale, sono stati introdotti metodi più avanzati, come la regolazione dei colori (trasformazioni dello spazio colore), l'affilatura o la sfocatura delle immagini (filtri kernel) e la fusione di più immagini (miscelazione di immagini) per migliorare l'apprendimento.

L'incremento può avvenire prima e durante l'addestramento del modello. Prima dell'addestramento, le immagini modificate possono essere aggiunte al set di dati per fornire una maggiore varietà. Durante l'addestramento, le immagini possono essere modificate casualmente in tempo reale, aiutando i modelli Vision AI ad adattarsi alle diverse condizioni.

Queste modifiche vengono effettuate utilizzando trasformazioni matematiche. Ad esempio, la rotazione inclina un'immagine, il ritaglio ne rimuove alcune parti per simulare viste diverse e le modifiche alla luminosità simulano variazioni di illuminazione. La sfocatura ammorbidisce le immagini, la nitidezza rende più chiari i dettagli e la miscelazione delle immagini combina parti di immagini diverse. I framework e gli strumenti di IA per la visione, come OpenCV, TensorFlow e PyTorch, possono automatizzare questi processi, rendendo l'aumento rapido ed efficace.

Principali tecniche di incremento dei dati di immagine

Ora che abbiamo discusso di che cos'è l'aumento dei dati di immagine, esaminiamo più da vicino alcune tecniche fondamentali di aumento dei dati di immagine utilizzate per migliorare i dati di addestramento.

Regolazione dell'orientamento e della posizione

I modelli di visione artificiale come YOLO11 devono spesso riconoscere gli oggetti da diverse angolazioni e punti di vista. A tale scopo, le immagini possono essere capovolte orizzontalmente o verticalmente, in modo che il modello di intelligenza artificiale impari a riconoscere gli oggetti da diversi punti di vista. 

Allo stesso modo, la rotazione delle immagini ne modifica leggermente l'angolazione, consentendo al modello di identificare gli oggetti da più prospettive. Inoltre, lo spostamento delle immagini in direzioni diverse (traslazione) aiuta i modelli ad adattarsi a piccoli cambiamenti di posizione. Queste trasformazioni fanno sì che i modelli si generalizzino meglio alle condizioni del mondo reale, dove la posizione degli oggetti in un'immagine è imprevedibile.

__wf_reserved_inherit
Figura 2. Diversi metodi di incremento legati all'orientamento e alla posizione.

Ridimensionamento e ritaglio

Per quanto riguarda le soluzioni di computer vision del mondo reale, gli oggetti nelle immagini possono apparire a distanze e dimensioni diverse. I modelli di IA di visione devono essere abbastanza robusti da rilevarli indipendentemente da queste differenze. 

Per migliorare l'adattabilità, si possono utilizzare i seguenti metodi di incremento:

  • Ridimensionamento: Il ridimensionamento modifica le dimensioni dell'immagine mantenendo le proporzioni, consentendo ai modelli AI di rilevare oggetti a distanze diverse.
  • Ritaglio: Rimuove le parti non necessarie di un'immagine, aiutando il modello a concentrarsi sulle aree chiave e riducendo le distrazioni dello sfondo.
  • Taglio: L'inclinazione di un'immagine simula un aspetto inclinato o allungato, aiutando l'intelligenza artificiale a riconoscere gli oggetti da diverse angolazioni.

Queste regolazioni aiutano i modelli di visione computerizzata a riconoscere gli oggetti anche se le loro dimensioni o la loro forma cambiano leggermente.

Regolazione della prospettiva e della distorsione

Gli oggetti nelle immagini possono apparire in modo diverso a seconda dell'angolo di ripresa, rendendo difficile il riconoscimento da parte dei modelli di computer vision. Per aiutare i modelli a gestire queste variazioni, le tecniche di incremento possono regolare il modo in cui gli oggetti vengono presentati nelle immagini. 

Ad esempio, le trasformazioni prospettiche possono modificare l'angolo di visione, facendo sembrare che un oggetto sia visto da una posizione diversa. Ciò consente ai modelli Vision AI di riconoscere gli oggetti anche quando sono inclinati o ripresi da un punto di vista insolito. 

Un altro esempio è la trasformazione elastica che allunga, piega o deforma le immagini per simulare le distorsioni naturali, in modo che gli oggetti appaiano come se fossero riflessi o sotto pressione. 

Modifiche al colore e all'illuminazione

Le condizioni di illuminazione e le differenze di colore possono avere un impatto significativo sul modo in cui i modelli Vision AI interpretano le immagini. Poiché gli oggetti possono apparire in modo diverso con diverse impostazioni di illuminazione, le seguenti tecniche di aumento possono aiutare a gestire queste situazioni:

  • Regolazione della luminosità e del contrasto: La simulazione di diverse condizioni di illuminazione aiuta i modelli Vision AI a riconoscere gli oggetti in ambienti luminosi e bui.
  • Jittering del colore: La variazione casuale di tonalità, saturazione e bilanciamento del colore rende i modelli di computer vision più adattabili a diverse telecamere e condizioni di illuminazione.
  • Conversione in scala di grigi: La conversione delle immagini in bianco e nero incoraggia i modelli Vision AI a concentrarsi sulle forme e sulle strutture piuttosto che sui colori.
__wf_reserved_inherit
Figura 3. Esempi di accrescimenti legati alle variazioni di colore.

Tecniche avanzate di incremento dei dati di immagine

Finora abbiamo esplorato solo tecniche di incremento che modificano una singola immagine. Tuttavia, alcuni metodi avanzati prevedono la combinazione di più immagini per migliorare l'apprendimento dell'intelligenza artificiale.

Ad esempio, MixUp fonde due immagini, aiutando i modelli di computer vision a comprendere le relazioni tra gli oggetti e migliorando la loro capacità di generalizzare tra diversi scenari. CutMix fa un ulteriore passo avanti sostituendo una sezione di un'immagine con una parte di un'altra, consentendo ai modelli di apprendere da più contesti all'interno della stessa immagine. CutOut, invece, agisce in modo diverso, rimuovendo parti casuali di un'immagine e addestrando i modelli Vision AI a riconoscere gli oggetti anche quando sono parzialmente nascosti o ostruiti.

__wf_reserved_inherit
Figura 4. Tecniche avanzate di aumento dei dati di immagine.

Il ruolo dell'IA generativa nell'aumento dei dati delle immagini

L'intelligenza artificiale generativa si sta diffondendo in molti settori e applicazioni quotidiane. Probabilmente l'avrete incontrata in relazione alle immagini generate dall'intelligenza artificiale, ai video deepfake o alle app che creano avatar realistici. Ma al di là della creatività e dell'intrattenimento, l'IA generativa svolge un ruolo cruciale nell'addestramento dei modelli di IA di visione, generando nuove immagini da quelle esistenti.

Anziché limitarsi a capovolgere o ruotare le immagini, è in grado di creare variazioni realistiche, cambiando le espressioni del viso, gli stili di abbigliamento o persino simulando condizioni meteorologiche diverse. Queste variazioni aiutano i modelli di computer vision a diventare più adattabili e precisi in diversi scenari del mondo reale. I modelli avanzati di intelligenza artificiale generativa, come le GAN (Generative Adversarial Networks) e i modelli di diffusione, possono anche riempire i dettagli mancanti o creare immagini sintetiche di alta qualità.

Limiti dell'aumento dei dati di immagine

Se da un lato l'aumento dei dati migliora i dataset di addestramento, dall'altro ci sono alcune limitazioni da considerare. Ecco alcune sfide chiave legate all'aumento dei dati delle immagini:

  • Diversità limitata dei dati: Le immagini aumentate provengono da dati esistenti e non possono introdurre modelli completamente nuovi o prospettive rare.
  • Potenziale distorsione dei dati: Trasformazioni eccessive possono rendere le immagini non realistiche, riducendo potenzialmente l'accuratezza del modello in scenari reali.
  • Aumento dei calcoli: L'aumento in tempo reale che avviene durante l'addestramento del modello può richiedere una notevole potenza di elaborazione, rallentando l'addestramento e aumentando l'utilizzo della memoria.
  • Lo squilibrio tra le classi rimane: L'incremento non crea campioni completamente nuovi, quindi le categorie sottorappresentate possono ancora portare a un apprendimento distorto.

Un'applicazione reale dell'aumento dei dati delle immagini

Un'applicazione interessante dell'aumento dei dati di immagine è quella delle auto a guida autonoma, dove le decisioni prese in una frazione di secondo da modelli di visione computerizzata come YOLO11 sono cruciali. Il modello deve essere in grado di rilevare con precisione strade, persone e altri oggetti.

Tuttavia, le condizioni reali che un veicolo a guida autonoma incontra possono essere imprevedibili. Maltempo, sfocatura da movimento e segnali nascosti possono rendere complesse le soluzioni di Vision AI in questo settore. L'addestramento dei modelli di computer vision con le sole immagini del mondo reale spesso non è sufficiente. I dataset di immagini per i modelli delle auto a guida autonoma devono essere diversificati, in modo che il modello possa imparare a gestire situazioni inaspettate.

L'aumento dei dati dell'immagine risolve questo problema simulando la nebbia, regolando la luminosità e distorcendo le forme. Queste modifiche aiutano i modelli a riconoscere gli oggetti in condizioni diverse. Di conseguenza, i modelli diventano più intelligenti e affidabili. 

Con l'addestramento aumentato, le soluzioni Vision AI nelle auto a guida autonoma si adattano meglio e prendono decisioni più sicure. Risultati più accurati significano meno incidenti e una migliore navigazione. 

__wf_reserved_inherit
Figura 5. Un esempio di aumento dei dati di immagine per le auto a guida autonoma.

Le auto a guida autonoma sono solo un esempio. In realtà, l'aumento dei dati di immagine è fondamentale in un'ampia gamma di settori, dall'imaging medico all'analisi della vendita al dettaglio. Qualsiasi applicazione che si basa sulla computer vision può potenzialmente trarre vantaggio dall'aumento dei dati di immagine.

Punti di forza

I sistemi di intelligenza artificiale devono essere in grado di riconoscere gli oggetti in diverse condizioni, ma raccogliere infinite immagini del mondo reale per l'addestramento può essere difficile. L'aumento dei dati di immagine risolve questo problema creando variazioni di immagini esistenti, aiutando i modelli ad apprendere più velocemente e a ottenere prestazioni migliori in situazioni reali. Migliora l'accuratezza, garantendo che i modelli Vision AI come YOLO11 siano in grado di gestire luci, angolazioni e ambienti diversi.

Per le aziende e gli sviluppatori, l'aumento dei dati delle immagini consente di risparmiare tempo e fatica e di rendere più affidabili i modelli di computer vision. Dalla sanità alle auto a guida autonoma, molti settori dipendono da questa tecnologia. Con l'evoluzione della Vision AI, l'aumento dei dati continuerà a essere una parte essenziale della costruzione di modelli più intelligenti e adattabili per il futuro.

Unitevi alla nostra comunità e visitate il nostro repository GitHub per vedere l'IA in azione. Esplorate le nostre opzioni di licenza e scoprite di più sull'IA in agricoltura e sulla computer vision nella produzione nelle nostre pagine dedicate alle soluzioni.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti