Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Apprendimento auto-supervisionato per il denoising: un'analisi dettagliata passo dopo passo

Abirami Vina

5 minuti di lettura

2 dicembre 2025

Scopri come funziona l'apprendimento auto-supervisionato per la denoising, perché le immagini diventano rumorose e quali sono i metodi e i passaggi chiave utilizzati per recuperare dettagli visivi puliti.

Le fotocamere non sempre catturano il mondo così come lo vediamo noi. Un ritratto scattato in condizioni di scarsa illuminazione o una foto di un'auto in rapido movimento possono apparire sgranati, sfocati o distorti. 

Sensori lenti, ambienti bui e movimenti possono introdurre minuscoli granelli di rumore che ammorbidiscono i contorni e nascondono dettagli importanti. Quando si perde questa nitidezza, anche i sistemi avanzati di intelligenza artificiale e apprendimento automatico possono avere difficoltà a comprendere il contenuto di un'immagine, poiché molti sistemi intelligenti si basano proprio su quei dettagli per funzionare correttamente.

Ad esempio, la visione artificiale è una branca dell'intelligenza artificiale che consente alle macchine di interpretare immagini e video. Ma per farlo in modo accurato, i modelli di IA visiva hanno bisogno di dati visivi puliti e di alta qualità da cui apprendere. 

In particolare, modelli come Ultralytics YOLO11 e il prossimo Ultralytics supportano attività quali il rilevamento di oggetti, la segmentazione di istanze e la stima della posa, e possono essere personalizzati per diversi casi d'uso. Queste attività si basano su chiari segnali visivi quali bordi, texture, colori e dettagli strutturali precisi. 

Quando il rumore oscura queste caratteristiche, il modello riceve segnali di addestramento più deboli, rendendo più difficile l'apprendimento di modelli accurati. Di conseguenza, anche piccole quantità di rumore possono ridurre le prestazioni nelle applicazioni reali.

In precedenza abbiamo visto come l'apprendimento auto-supervisionato rimuove il rumore dalle immagini. In questo articolo approfondiremo il funzionamento delle tecniche di denoising auto-supervisionate e il modo in cui aiutano a recuperare informazioni visive significative. Cominciamo!

Tipi comuni di rumore nelle immagini reali

Prima di approfondire come viene utilizzato l'apprendimento auto-supervisionato nella riduzione del rumore delle immagini, rivediamo innanzitutto perché le immagini diventano rumorose.

Le immagini di oggetti e scene del mondo reale raramente sono perfette. Una scarsa illuminazione, una qualità limitata dei sensori e movimenti rapidi possono introdurre disturbi casuali nei singoli pixel dell'immagine. Queste interferenze a livello di pixel, note come rumore, riducono la nitidezza complessiva e rendono più difficili da vedere dettagli importanti.

Quando il rumore nasconde i contorni, le texture e i motivi sottili, i sistemi di visione artificiale hanno difficoltà a riconoscere gli oggetti o interpretare accuratamente le scene. Condizioni diverse producono tipi diversi di rumore, ognuno dei quali influisce sull'immagine in modo diverso.

Fig. 1. Un esempio di come il rumore possa causare una maggiore incertezza in un'immagine. (Fonte)

Ecco alcuni dei tipi più comuni di rumore presenti nelle immagini:

  • Rumore gaussiano: questo tipo di rumore si presenta come una grana morbida e casuale causata dall'interferenza dei sensori elettronici o dalle fluttuazioni termiche. Segue una distribuzione gaussiana (normale), in cui piccole variazioni dei pixel sfocano i dettagli più fini e riducono la nitidezza complessiva.
  • Rumore di Poisson: chiamato anche rumore di scatto, questo tipo di rumore si verifica in condizioni di scarsa illuminazione o con tempi di esposizione brevi. La sua varianza aumenta con la luminosità, ma il rumore è spesso più evidente nelle regioni più scure perché vengono catturati meno fotoni, con conseguente riduzione del rapporto segnale/rumore.
  • Rumore sale e pepe: questo tipo di rumore si presenta sotto forma di picchi di pixel neri o bianchi. È solitamente causato da errori di trasmissione, corruzione dei bit o sensori della fotocamera difettosi e spesso comporta valori dei pixel mancanti o danneggiati.
  • Rumore a grana: questo tipo di rumore appare come un motivo granuloso simile a macchie ed è comune nelle immagini mediche, radar e ultrasoniche. È causato dall'interferenza e dalla dispersione del segnale, che riduce il contrasto e rende più difficili da detect i contorni.

Quando è opportuno utilizzare il denoising auto-supervisionato?

Cosa rende speciale il denoising auto-supervisionato? È particolarmente utile in situazioni in cui non esistono immagini pulite e realistiche o sono troppo difficili da acquisire. 

Questo accade spesso nella fotografia in condizioni di scarsa illuminazione, nell'imaging ad alto ISO, nell'imaging medico e scientifico o in qualsiasi ambiente in cui il rumore è inevitabile e la raccolta di dati di riferimento perfetti è irrealistica. Invece di aver bisogno di esempi puliti, il modello apprende direttamente dalle immagini rumorose già disponibili, rendendolo adattabile ai modelli di rumore specifici della fotocamera o del sensore.

Il denoising auto-supervisionato è anche un'ottima opzione quando si desidera migliorare le prestazioni delle attività di visione artificiale a valle, ma il set di dati è pieno di immagini incoerenti o rumorose. Recuperando bordi, texture e strutture più chiari, questi metodi aiutano modelli come YOLO detect, segment e comprendere le scene in modo più affidabile. In breve, se si lavora con dati rumorosi e non sono disponibili immagini di addestramento pulite, il denoising auto-supervisionato offre spesso la soluzione più pratica ed efficace.

Le tecniche fondamentali alla base del denoising auto-supervisionato

Come abbiamo visto in precedenza, il denoising auto-supervisionato è un approccio di intelligenza artificiale basato sul deep learning che consente ai modelli di apprendere direttamente da immagini rumorose senza fare affidamento su etichette pulite. Si basa sui principi dell'apprendimento auto-supervisionato, in cui i modelli generano i propri segnali di addestramento dai dati stessi.

In altre parole, un modello può apprendere autonomamente utilizzando immagini rumorose sia come input che come fonte del proprio segnale di apprendimento. Confrontando diverse versioni danneggiate della stessa immagine o prevedendo i pixel mascherati, il modello apprende quali modelli rappresentano la struttura reale e quali sono solo rumore. Attraverso l'ottimizzazione iterativa e il riconoscimento dei modelli, la rete migliora gradualmente la propria capacità di distinguere i contenuti significativi dell'immagine dalle variazioni casuali.

Fig. 2. Immagine grezza e immagine denoizzata. (Fonte)

Ciò è reso possibile grazie a specifiche strategie di apprendimento che guidano il modello a separare la struttura stabile dell'immagine dal rumore casuale. Di seguito, esamineremo più da vicino le tecniche e gli algoritmi fondamentali che ottimizzano questo processo e vedremo in che modo ciascun approccio aiuta i modelli a ricostruire immagini più pulite e affidabili.

Metodi di denoising delle immagini a coppie

Molti dei primi metodi di apprendimento auto-supervisionato per la denoizzazione funzionavano confrontando due versioni rumorose della stessa immagine. Poiché il rumore cambia in modo casuale ogni volta che un'immagine viene catturata o danneggiata, ma la struttura reale rimane la stessa, queste differenze possono essere utilizzate come segnale di apprendimento per un modello. 

Questi approcci sono comunemente denominati metodi di denoising delle immagini a coppie perché si basano sull'utilizzo o sulla generazione di coppie di immagini rumorose durante l'addestramento. Ad esempio, l'approccio Noise2Noise (proposto da Jaakko Lehtinen e dal suo team) addestra un modello utilizzando due immagini indipendenti e rumorose della stessa scena. Dato che i modelli di rumore differiscono tra le due versioni, il modello impara a identificare i dettagli coerenti che rappresentano l'immagine sottostante effettiva.

Fig. 3. Come funziona Noise2Noise (Fonte)

Nel corso del tempo, questo insegna alla rete a sopprimere il rumore casuale e a preservare la struttura reale, anche se non vede mai un'immagine di riferimento pulita. Consideriamo un semplice scenario in cui si scattano due foto di una strada poco illuminata di notte. 

Ogni immagine contiene gli stessi edifici, luci e ombre, ma il rumore sgranato appare in punti diversi. Confrontando queste due foto rumorose durante l'addestramento, un modello auto-supervisionato può imparare quali modelli visivi sono stabili e quali sono causati dal rumore, migliorando in ultima analisi la sua capacità di ricostruire immagini più pulite.

Metodi di apprendimento auto-supervisionato basati sui punti ciechi per la riduzione del rumore

Mentre i metodi a coppie si basano sul confronto tra due versioni diverse e danneggiate della stessa immagine, i metodi blind-spot adottano un approccio diverso. Consentono a un modello di apprendere da una singola immagine rumorosa nascondendo pixel selezionati in modo che la rete non possa vedere i loro valori danneggiati. 

Il modello deve quindi prevedere i pixel nascosti utilizzando solo il contesto circostante. L'idea fondamentale è che il rumore è casuale, ma la struttura sottostante di un'immagine non lo è. 

Impedendo al modello di copiare il valore rumoroso di un pixel, i metodi blind-spot lo incoraggiano a dedurre quale dovrebbe essere quel pixel sulla base di modelli di immagine stabili come bordi vicini, texture o gradienti di colore. Tecniche come Noise2Void (introdotta da Alexander Krull e dal suo team) e Noise2Self (sviluppata da Joshua Batson e Loïc Royer) implementano questo principio mascherando singoli pixel o piccole aree circostanti e addestrando il modello a ricostruirli.

Approcci più avanzati, tra cui Noise2Same e PN2V, migliorano la robustezza applicando previsioni coerenti su più versioni mascherate o modellando esplicitamente la distribuzione del rumore per stimare l'incertezza. Poiché questi metodi richiedono solo una singola immagine rumorosa, sono particolarmente utili in ambiti in cui acquisire immagini pulite o accoppiate è poco pratico o impossibile, come la microscopia, l'astronomia, l'imaging biomedico o la fotografia in condizioni di scarsa illuminazione.

Metodi di denoising supportati da trasformatori

La maggior parte dei metodi di denoising auto-supervisionati a coppie e blind-spot si basano su reti neurali convoluzionali (CNN) o reti di denoising. Le CNN sono un'ottima opzione per questi approcci perché si concentrano su modelli locali, ovvero bordi, texture e piccoli dettagli. 

Architetture come U-Net sono ampiamente utilizzate poiché combinano caratteristiche dettagliate con informazioni multiscala. Tuttavia, le CNN operano principalmente all'interno di aree limitate, il che significa che possono tralasciare relazioni importanti che interessano regioni più ampie di un'immagine.

Per ovviare a questa limitazione sono stati introdotti metodi di denoising all'avanguardia supportati da trasformatori. Anziché considerare solo i pixel vicini, il metodo proposto utilizza meccanismi di attenzione per comprendere come le diverse parti di un'immagine sono correlate tra loro. 

Alcuni modelli utilizzano l'attenzione globale completa, mentre altri utilizzano l'attenzione basata su finestre o gerarchica per ridurre i calcoli, ma in generale sono progettati per catturare strutture a lungo raggio che le CNN da sole non sono in grado di cogliere. Questa visione più ampia aiuta il modello a ripristinare texture ripetitive, superfici lisce o oggetti di grandi dimensioni che richiedono informazioni provenienti da tutta l'immagine.

Altri metodi di denoising delle immagini

Oltre alle tecniche auto-supervisionate, esistono anche diversi altri modi per ripulire le immagini rumorose. I metodi tradizionali, come il filtraggio bilaterale, il denoising wavelet e i mezzi non locali, utilizzano semplici regole matematiche per smussare il rumore cercando di mantenere i dettagli importanti. 

Nel frattempo, esistono anche approcci di deep learning, tra cui modelli supervisionati che apprendono da coppie di immagini pulite e rumorose e reti generative avversarie (GAN) che generano risultati più nitidi e realistici. Tuttavia, questi metodi richiedono solitamente una migliore qualità dell'immagine per l'addestramento.

Uno sguardo dettagliato al funzionamento del denoising delle immagini auto-supervisionato

Poiché abbiamo appena esaminato diverse tecniche, potresti chiederti se ciascuna di esse funzioni in modo completamente diverso, dato che utilizzano architetture proprie. Tuttavia, tutte seguono un percorso simile che inizia con la preparazione dei dati e termina con la valutazione del modello.

Successivamente, esaminiamo più da vicino come funziona passo dopo passo il processo complessivo di denoising delle immagini con auto-supervisione. 

Fase 1: Pre-elaborazione e normalizzazione

Prima che il modello possa iniziare ad apprendere da immagini rumorose, il primo passo è assicurarsi che tutte le immagini appaiano coerenti. Le foto reali possono variare molto. 

Alcune immagini potrebbero essere troppo luminose, altre troppo scure e alcune potrebbero presentare colori leggermente alterati. Se inseriamo queste variazioni direttamente in un modello, diventa più difficile per esso concentrarsi sull'apprendimento dell'aspetto del rumore.

Per gestire questo aspetto, ogni immagine viene sottoposta a normalizzazione e pre-elaborazione di base. Ciò può includere il ridimensionamento dei valori dei pixel a un intervallo standard, la correzione delle variazioni di intensità o il ritaglio e il ridimensionamento. La chiave è che il modello riceva dati puliti che possano essere utilizzati come input stabili e comparabili.

Fase 2: Creazione di un segnale di addestramento auto-supervisionato

Una volta normalizzate le immagini, il passo successivo consiste nel creare un segnale di addestramento che consenta al modello di apprendere senza mai vedere un'immagine pulita. I metodi di denoising auto-supervisionati lo fanno assicurandosi che il modello non possa semplicemente copiare i valori dei pixel rumorosi che riceve. 

Al contrario, creano situazioni in cui il modello deve fare affidamento sul contesto circostante dell'immagine, che contiene una struttura stabile, piuttosto che sul rumore imprevedibile. Metodi diversi raggiungono questo obiettivo in modi leggermente diversi, ma l'idea di base è la stessa. 

Alcuni approcci nascondono o mascherano temporaneamente determinati pixel in modo che il modello debba dedurli dai pixel vicini, mentre altri generano una versione separatamente danneggiata della stessa immagine rumorosa in modo che l'input e il target contengano rumore indipendente. In entrambi i casi, l'immagine target contiene informazioni strutturali significative ma impedisce alla rete di accedere al valore rumoroso originale del pixel che dovrebbe prevedere.

Poiché il rumore cambia in modo casuale mentre l'immagine sottostante rimane costante, questa configurazione incoraggia naturalmente il modello ad apprendere l'aspetto della struttura reale e a ignorare il rumore che varia da una versione all'altra.

Fase 3: Apprendimento del denoising per recuperare la struttura dell'immagine

Una volta impostato il segnale di addestramento, il modello può iniziare ad apprendere come separare la struttura significativa dell'immagine dal rumore attraverso l'addestramento del modello. Ogni volta che prevede un pixel mascherato o nuovamente danneggiato, deve fare affidamento sul contesto circostante invece che sul valore rumoroso che originariamente occupava quel punto. 

Attraverso numerose iterazioni o epoche, questo processo insegna alla rete a riconoscere i tipi di modelli che rimangono stabili in un'immagine, come i bordi, le texture e le superfici lisce. Inoltre, impara a ignorare le fluttuazioni casuali che caratterizzano il rumore. 

Si consideri, ad esempio, una foto scattata in condizioni di scarsa illuminazione in cui una superficie appare estremamente sgranata. Sebbene il rumore vari da pixel a pixel, la superficie sottostante rimane comunque liscia. Inferendo ripetutamente i pixel nascosti in tali regioni, il modello migliora gradualmente la propria capacità di identificare il modello stabile sottostante al rumore e di ricostruirlo in modo più pulito. 

Attraverso il processo di addestramento del modello, la rete apprende una rappresentazione interna della struttura dell'immagine. Ciò consente al modello di recuperare dettagli coerenti anche quando l'input è fortemente danneggiato.

Fase 4: Risultati della convalida e della riduzione del rumore

Dopo che il modello ha imparato a prevedere i pixel nascosti o nuovamente danneggiati, il passo finale consiste nel valutare le sue prestazioni sulle immagini complete. Durante il test, il modello riceve un'immagine intera con rumore e produce una versione completamente denoizzata sulla base di ciò che ha appreso sulla struttura dell'immagine. Per misurare l'efficacia di questo processo, l'output viene confrontato con immagini di riferimento pulite o set di dati di benchmark standard.

Due metriche comunemente utilizzate sono il PSNR (Peak Signal-to-Noise Ratio), che misura quanto la ricostruzione sia vicina alla realtà effettiva, e l'SSIM (Structural Similarity Index), che valuta quanto siano state preservate caratteristiche importanti come i bordi e le texture. Punteggi più alti indicano generalmente una riduzione del rumore più accurata e visivamente affidabile.

Set di dati di immagini utilizzati per l'addestramento e il benchmarking

La ricerca sul denoising auto-supervisionato, pubblicata su riviste IEEE e conferenze CVF, tra cui CVPR, ICCV ed ECCV, nonché ampiamente diffusa su arXiv, si basa spesso su un mix di set di dati sintetici e reali per valutare le prestazioni dei modelli dei metodi di deep learning in condizioni sia controllate che pratiche. Da un lato, i set di dati sintetici partono da immagini pulite alle quali viene aggiunto rumore artificiale, rendendo facile il confronto tra i metodi utilizzando metriche come PSNR e SSIM.

Ecco alcuni set di dati comunemente utilizzati con rumore sintetico aggiunto per il benchmarking:

  • Kodak24: questo set di dati fornisce fotografie di scene naturali di alta qualità comunemente utilizzate per confrontare visivamente i risultati della riduzione del rumore.

  • DIV2K: questo set di dati ad alta risoluzione contiene immagini diverse e dettagliate utilizzate per valutare la fedeltà delle texture e la qualità complessiva del restauro.

I set di dati reali rumorosi, invece, contengono immagini acquisite direttamente dai sensori delle fotocamere in condizioni di scarsa illuminazione, ISO elevato o altre condizioni difficili. Questi set di dati verificano se un modello è in grado di gestire rumori complessi e non gaussiani che non possono essere facilmente simulati.

Ecco alcuni set di dati reali rumorosi molto diffusi:

  • SIDD: Questo set di dati fornisce coppie di immagini reali rumorose e pulite catturate con sensori di smartphone in una vasta gamma di condizioni di illuminazione.

  • DND: Include fotografie ad alto ISO che catturano i modelli realistici di rumore del sensore presenti nelle fotocamere consumer.

Fig. 4. Un esempio tratto dal set di dati DND. (Fonte)

Fattori da considerare quando si addestra un modello di denoising auto-supervisionato

Ecco alcuni fattori e limitazioni da considerare se si intende addestrare un modello di denoising auto-supervisionato basato sul deep learning:

  • Abbina la distribuzione del rumore: le immagini rumorose utilizzate per l'addestramento dovrebbero riflettere lo stesso rumore che il modello incontrerà nell'uso reale; un rumore non corrispondente porta a una scarsa generalizzazione.
  • Garantire la diversità dei dati di addestramento: una variazione limitata può causare overfitting o oversmoothing nelle texture complesse.
  • Tenere presente i limiti relativi al tipo di rumore: i metodi auto-supervisionati hanno maggiori difficoltà con rumori strutturati, correlati o non casuali.
  • Test su diversi dispositivi o sensori: le prestazioni di denoising possono variare notevolmente a seconda delle fotocamere o dei sistemi di imaging.

Punti chiave

Il denoising auto-supervisionato offre agli appassionati di IA un modo pratico per ripulire le immagini utilizzando solo i dati rumorosi già disponibili. Imparando a riconoscere la struttura reale sotto il rumore, questi metodi consentono di recuperare importanti dettagli visivi. Con il continuo miglioramento della tecnologia di denoising, è probabile che una vasta gamma di attività di visione artificiale diventerà più affidabile nelle situazioni quotidiane.

Entra a far parte della nostra comunità in continua crescita! Esplora il nostro repository GitHub per saperne di più sull'IA. Se desideri sviluppare soluzioni di visione artificiale, dai un'occhiata alle nostre opzioni di licenza. Scopri i vantaggi della visione artificiale nel settore retail e come l'IA sta rivoluzionando il settore manifatturiero!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis