Apprendimento auto-supervisionato per il denoising: un'analisi passo dopo passo
Scopri come funziona l'apprendimento auto-supervisionato per la rimozione del rumore (denoising), perché le immagini diventano rumorose e i metodi e i passaggi chiave utilizzati per recuperare dettagli visivi puliti.

Le fotocamere non catturano sempre il mondo esattamente come lo vediamo noi. Un ritratto scattato con scarsa illuminazione o la foto di un'auto in movimento possono apparire granulosi, sfocati o distorti.
Sensori lenti, ambienti bui e movimento possono introdurre minuscoli granelli di rumore che ammorbidiscono i bordi e nascondono dettagli importanti. Quando questa nitidezza viene persa, anche i sistemi avanzati di AI e machine learning possono faticare a comprendere cosa contiene un'immagine, poiché molti sistemi intelligenti si affidano a quei dettagli precisi per funzionare bene.
Ad esempio, la computer vision è un ramo dell'intelligenza artificiale che consente alle macchine di interpretare immagini e video. Ma per farlo con precisione, i modelli di AI per la visione hanno bisogno di dati visivi puliti e di alta qualità da cui imparare.
Nello specifico, modelli come Ultralytics YOLO11 e il prossimo Ultralytics YOLO26 supportano attività come il rilevamento di oggetti, la segmentazione di istanze e la stima della posa, e possono essere addestrati su misura per diversi casi d'uso. Queste attività si basano su segnali visivi chiari come bordi, texture, colori e dettagli strutturali definiti.
Quando il rumore oscura queste caratteristiche, il modello riceve segnali di addestramento più deboli, rendendo più difficile l'apprendimento di pattern accurati. Di conseguenza, anche piccole quantità di rumore possono ridurre le prestazioni nelle applicazioni reali.
In precedenza, abbiamo esaminato come l'apprendimento auto-supervisionato riduce il rumore nelle immagini. In questo articolo, approfondiremo come funzionano le tecniche di riduzione del rumore auto-supervisionate e come aiutano a recuperare informazioni visive significative. Cominciamo!
Link to this sectionTipi comuni di rumore nelle immagini reali#
Prima di esplorare come l'apprendimento auto-supervisionato viene utilizzato nella riduzione del rumore delle immagini, rivediamo innanzitutto perché le immagini diventano rumorose.
Le immagini di oggetti e scene reali sono raramente perfette. La scarsa illuminazione, la qualità limitata del sensore e il movimento rapido possono introdurre disturbi casuali nei singoli pixel dell'immagine. Queste interruzioni a livello di pixel, note come rumore, riducono la nitidezza complessiva e rendono più difficile vedere dettagli importanti.
Quando il rumore nasconde bordi, texture e pattern sottili, i sistemi di computer vision faticano a riconoscere oggetti o interpretare scene in modo accurato. Condizioni diverse producono tipi diversi di rumore, ognuno dei quali influenza l'immagine a modo suo.

Fig 1. Un esempio di come il rumore possa causare una maggiore incertezza in un'immagine. (Fonte)
Ecco alcuni dei tipi di rumore più comuni riscontrati nelle immagini:
- Rumore Gaussiano: Questo tipo di rumore appare come una grana morbida e casuale causata dall'interferenza dei sensori elettronici o da fluttuazioni termiche. Segue una distribuzione Gaussiana (normale), in cui piccole variazioni dei pixel sfocano i dettagli fini e riducono la nitidezza complessiva.
- Rumore di Poisson: Chiamato anche rumore di scatto (shot noise), questo tipo di rumore si verifica in condizioni di scarsa illuminazione o con tempi di esposizione brevi. La sua varianza aumenta con la luminosità, ma il rumore è spesso più evidente nelle regioni più scure perché vengono catturati meno fotoni, con un conseguente rapporto segnale-rumore più basso.
- Rumore sale e pepe: Questo tipo di rumore appare come punte di pixel bianchi o neri nitidi. Di solito è causato da errori di trasmissione, corruzione dei bit o sensori della fotocamera difettosi, e spesso porta a valori di pixel mancanti o corrotti.
- Rumore speckle: Questo tipo di rumore appare come pattern granulosi simili a macchie ed è comune nell'imaging medico, radar e a ultrasuoni. È causato da interferenza di segnale e scattering, che riduce il contrasto e rende i bordi più difficili da rilevare.
Link to this sectionQuando dovresti usare la riduzione del rumore auto-supervisionata?#
Quindi, cosa rende speciale la riduzione del rumore auto-supervisionata? Eccelle in situazioni in cui immagini pulite e di riferimento (ground-truth) semplicemente non esistono o sono troppo difficili da catturare.
Ciò accade spesso nella fotografia a bassa luminosità, nell'imaging ad alto ISO, nell'imaging medico e scientifico, o in qualsiasi ambiente in cui il rumore è inevitabile e raccogliere dati di riferimento perfetti non è realistico. Invece di aver bisogno di esempi puliti, il modello impara direttamente dalle immagini rumorose che già possiedi, rendendolo adattabile ai pattern di rumore specifici della tua fotocamera o del tuo sensore.
La riduzione del rumore auto-supervisionata è anche un'ottima opzione quando vuoi aumentare le prestazioni delle attività di computer vision a valle, ma il tuo dataset è pieno di immagini incoerenti o rumorose. Recuperando bordi, texture e strutture più nitide, questi metodi aiutano modelli come YOLO a rilevare, segmentare e comprendere le scene in modo più affidabile. In breve, se lavori con dati rumorosi e non sono disponibili immagini di addestramento pulite, la riduzione del rumore auto-supervisionata offre spesso la soluzione più pratica ed efficace.
Link to this sectionLe tecniche fondamentali alla base della riduzione del rumore auto-supervisionata#
Come abbiamo visto in precedenza, la riduzione del rumore auto-supervisionata è un approccio di AI basato sul deep learning che consente ai modelli di apprendere direttamente da immagini rumorose senza fare affidamento su etichette pulite. Si basa sui principi dell'apprendimento auto-supervisionato, in cui i modelli generano i propri segnali di addestramento dai dati stessi.
In altre parole, un modello può auto-istruirsi utilizzando immagini rumorose sia come input che come fonte del suo segnale di apprendimento. Confrontando diverse versioni corrotte della stessa immagine o prevedendo i pixel mascherati, il modello impara quali pattern rappresentano una struttura reale e quali sono solo rumore. Attraverso l'ottimizzazione iterativa e il riconoscimento dei pattern, la rete migliora gradualmente la sua capacità di distinguere il contenuto visivo significativo dalla variazione casuale.

Fig 2. Un'immagine grezza e un'immagine con rumore ridotto. (Fonte)
Ciò è reso possibile attraverso specifiche strategie di apprendimento che guidano il modello a separare la struttura stabile dell'immagine dal rumore casuale. Successivamente, esaminiamo più da vicino le tecniche e gli algoritmi principali che semplificano questo processo e come ogni approccio aiuta i modelli a ricostruire immagini più pulite e affidabili.
Link to this sectionMetodi di riduzione del rumore delle immagini a coppie#
Molti dei primi metodi di apprendimento auto-supervisionato per la riduzione del rumore funzionavano confrontando due versioni rumorose della stessa immagine. Poiché il rumore cambia in modo casuale ogni volta che un'immagine viene catturata o corrotta, ma la struttura reale rimane la stessa, queste differenze possono essere utilizzate come segnale di apprendimento per un modello.
Questi approcci sono comunemente indicati come metodi di riduzione del rumore delle immagini a coppie poiché si basano sull'utilizzo o sulla generazione di coppie di immagini rumorose durante l'addestramento. Ad esempio, l'approccio Noise2Noise (proposto da Jaakko Lehtinen e dal suo team) addestra un modello utilizzando due immagini indipendentemente rumorose della stessa scena. Dato che i pattern di rumore differiscono tra le due versioni, il modello impara a identificare i dettagli coerenti che rappresentano l'immagine sottostante reale.

Fig 3. Come funziona Noise2Noise (Fonte)
Nel tempo, questo insegna alla rete a sopprimere il rumore casuale e preservare la struttura reale, anche se non vede mai un'immagine di riferimento pulita. Considera uno scenario semplice in cui scatti due foto di una strada poco illuminata di notte.
Ogni immagine contiene gli stessi edifici, luci e ombre, ma il rumore granuloso appare in posti diversi. Confrontando queste due foto rumorose durante l'addestramento, un modello auto-supervisionato può imparare quali pattern visivi sono stabili e quali sono causati dal rumore, migliorando in definitiva la sua capacità di ricostruire immagini più pulite.
Link to this sectionMetodi di apprendimento auto-supervisionato basati su "blind-spot" per la riduzione del rumore#
Mentre i metodi a coppie si basano sul confronto di due versioni diversamente corrotte della stessa immagine, i metodi basati su "blind-spot" adottano un approccio diverso. Permettono a un modello di imparare da una singola immagine rumorosa nascondendo i pixel selezionati in modo che la rete non possa vedere i loro valori corrotti.
Il modello deve quindi prevedere i pixel nascosti utilizzando solo il contesto circostante. L'idea centrale è che il rumore è casuale, ma la struttura sottostante di un'immagine non lo è.
Impedendo al modello di copiare il valore rumoroso di un pixel, i metodi blind-spot lo incoraggiano a dedurre quale dovrebbe essere quel pixel basandosi su pattern di immagine stabili come bordi vicini, texture o gradienti di colore. Tecniche come Noise2Void (introdotta da Alexander Krull e dal suo team) e Noise2Self (sviluppata da Joshua Batson e Loïc Royer) implementano questo principio mascherando singoli pixel o piccoli quartieri e addestrando il modello a ricostruirli.
Approcci più avanzati, inclusi Noise2Same e PN2V, migliorano la robustezza applicando previsioni coerenti su più versioni mascherate o modellando esplicitamente la distribuzione del rumore per stimare l'incertezza. Poiché questi metodi richiedono solo una singola immagine rumorosa, sono particolarmente utili in domini in cui l'acquisizione di immagini pulite o a coppie è impraticabile o impossibile, come la microscopia, l'astronomia, l'imaging biomedico o la fotografia a bassa luminosità.
Link to this sectionMetodi di riduzione del rumore supportati da Transformer#
La maggior parte dei metodi di riduzione del rumore auto-supervisionati a coppie e blind-spot si affida a reti neurali convoluzionali (CNN) o reti di denoising. Le CNN sono un'ottima opzione per questi approcci perché si concentrano su pattern locali, ovvero bordi, texture e piccoli dettagli.
Architetture come U-Net sono ampiamente utilizzate poiché combinano caratteristiche a grana fine con informazioni multiscala. Tuttavia, le CNN operano principalmente all'interno di quartieri limitati, il che significa che possono perdere relazioni importanti che si estendono su regioni più ampie di un'immagine.
I metodi di riduzione del rumore allo stato dell'arte supportati da Transformer sono stati introdotti per affrontare questa limitazione. Invece di guardare solo i pixel vicini, il metodo proposto utilizza meccanismi di attenzione per comprendere come le diverse parti di un'immagine si relazionano tra loro.
Alcuni modelli utilizzano un'attenzione globale completa, mentre altri utilizzano un'attenzione basata su finestre o gerarchica per ridurre il calcolo, ma in generale sono progettati per catturare la struttura a lungo raggio che le CNN da sole non possono. Questa visione più ampia aiuta il modello a ripristinare texture ripetitive, superfici lisce o oggetti di grandi dimensioni che richiedono informazioni provenienti da tutta l'immagine.
Link to this sectionAltri metodi di riduzione del rumore delle immagini#
Oltre alle tecniche auto-supervisionate, ci sono anche molti altri modi per ripulire le immagini rumorose. I metodi tradizionali, come il filtraggio bilaterale, la riduzione del rumore wavelet e i non-local means, utilizzano semplici regole matematiche per attenuare il rumore cercando di mantenere i dettagli importanti.
Nel frattempo, esistono anche approcci di deep learning, inclusi modelli supervisionati che imparano da coppie di immagini pulite-rumorose e reti generative avversarie (GAN) che generano risultati più nitidi e realistici. Tuttavia, questi metodi solitamente richiedono una qualità dell'immagine migliore per l'addestramento.
Link to this sectionUno sguardo passo dopo passo a come funziona la riduzione del rumore auto-supervisionata delle immagini#
Poiché abbiamo appena esaminato diverse tecniche, potresti chiederti se ognuna funzioni in modo completamente diverso, dato che usano le proprie architetture. Tuttavia, tutte seguono un processo simile che inizia con la preparazione dei dati e termina con la valutazione del modello.
Successivamente, esaminiamo più da vicino come funziona il processo generale di riduzione del rumore auto-supervisionata delle immagini, passo dopo passo.
Link to this sectionPassaggio 1: Preelaborazione e normalizzazione#
Prima che il modello possa iniziare a imparare dalle immagini rumorose, il primo passo è assicurarsi che tutte le immagini appaiano coerenti. Le foto reali possono variare molto.
Alcune immagini potrebbero essere troppo luminose, altre troppo scure e alcune potrebbero avere colori leggermente alterati. Se forniamo queste variazioni direttamente a un modello, diventa più difficile per esso concentrarsi sull'apprendimento di come appare il rumore.
Per gestire questo aspetto, ogni immagine passa attraverso normalizzazione e preelaborazione di base. Ciò potrebbe includere il ridimensionamento dei valori dei pixel a un intervallo standard, la correzione delle variazioni di intensità o il ritaglio e il ridimensionamento. La chiave è che il modello riceve dati puliti che possono essere utilizzati come input stabili e confrontabili.
Link to this sectionPassaggio 2: Creazione di un segnale di addestramento auto-supervisionato#
Una volta che le immagini sono state normalizzate, il passaggio successivo è creare un segnale di addestramento che consenta al modello di imparare senza mai vedere un'immagine pulita. I metodi di riduzione del rumore auto-supervisionati lo fanno assicurandosi che il modello non possa semplicemente copiare i valori dei pixel rumorosi che riceve.
Invece, creano situazioni in cui il modello deve fare affidamento sul contesto circostante dell'immagine, che contiene una struttura stabile, piuttosto che sul rumore imprevedibile. Metodi diversi lo ottengono in modi leggermente diversi, ma l'idea centrale è la stessa.
Alcuni approcci nascondono o mascherano temporaneamente determinati pixel in modo che il modello debba dedurli dai vicini, mentre altri generano una versione separatamente corrotta della stessa immagine rumorosa in modo che l'input e l'obiettivo contengano rumore indipendente. In entrambi i casi, l'immagine di destinazione trasporta informazioni strutturali significative ma impedisce alla rete di accedere al valore rumoroso originale del pixel che dovrebbe prevedere.
Poiché il rumore cambia in modo casuale mentre l'immagine sottostante rimane coerente, questa configurazione incoraggia naturalmente il modello a imparare come appare la vera struttura e a ignorare il rumore che varia da una versione all'altra.
Link to this sectionPassaggio 3: Imparare la riduzione del rumore per recuperare la struttura dell'immagine#
Con il segnale di addestramento pronto, il modello può iniziare a imparare come separare la struttura dell'immagine significativa dal rumore attraverso l'addestramento del modello. Ogni volta che prevede un pixel mascherato o ri-corrotto, deve fare affidamento sul contesto circostante invece che sul valore rumoroso che originariamente occupava quel posto.
Dopo molte iterazioni o epoche, questo insegna alla rete a riconoscere i tipi di pattern che rimangono stabili in un'immagine, come bordi, texture e superfici lisce. Impara anche a ignorare le fluttuazioni casuali che caratterizzano il rumore.
Ad esempio, considera una foto in condizioni di scarsa illuminazione in cui una superficie sembra estremamente granulosa. Sebbene il rumore vari da pixel a pixel, la superficie sottostante è comunque liscia. Deducendo ripetutamente i pixel nascosti in tali regioni, il modello diventa gradualmente più bravo a identificare il pattern stabile sotto il rumore e a ricostruirlo in modo più pulito.
Attraverso il processo di addestramento del modello, la rete apprende una rappresentazione interna della struttura dell'immagine. Questo consente al modello di recuperare dettagli coerenti anche quando l'input è fortemente corrotto.
Link to this sectionPassaggio 4: Valutazione e risultati della riduzione del rumore#
Dopo che il modello ha imparato a prevedere i pixel nascosti o ri-corrotti, il passaggio finale è valutare quanto bene si comporta sulle immagini complete. Durante il test, il modello riceve un'intera immagine rumorosa e produce una versione completa con rumore ridotto basata su ciò che ha imparato sulla struttura dell'immagine. Per misurare quanto sia efficace questo processo, l'output viene confrontato con immagini di riferimento pulite o dataset di benchmark standard.
Due metriche comunemente utilizzate sono il PSNR (Peak Signal-to-Noise Ratio), che misura quanto la ricostruzione è vicina alla ground truth pulita, e l'SSIM (Structural Similarity Index), che valuta quanto bene vengono preservate le caratteristiche importanti come bordi e texture. Punteggi più alti indicano generalmente una riduzione del rumore più accurata e visivamente affidabile.
Link to this sectionDataset di immagini utilizzati per l'addestramento e il benchmarking#
La ricerca sulla riduzione del rumore auto-supervisionata, che appare su riviste IEEE e conferenze CVF, tra gli altri, CVPR, ICCV ed ECCV, oltre a essere ampiamente distribuita su arXiv, si basa spesso su un mix di dataset sintetici e reali per valutare le prestazioni dei modelli di deep learning in condizioni sia controllate che pratiche. Da un lato, i dataset sintetici partono da immagini pulite e aggiungono rumore artificiale, rendendo facile confrontare i metodi utilizzando metriche come PSNR e SSIM.
Ecco alcuni dataset popolari comunemente usati con rumore sintetico aggiunto per il benchmarking:
- Kodak24: Questo dataset fornisce fotografie di scene naturali di alta qualità comunemente utilizzate per confrontare visivamente i risultati della riduzione del rumore.
- DIV2K: Questo dataset ad alta risoluzione contiene immagini diverse e dettagliate utilizzate per valutare la fedeltà della texture e la qualità complessiva del ripristino.
I dataset rumorosi reali, d'altra parte, contengono immagini catturate direttamente dai sensori delle fotocamere in condizioni di scarsa illuminazione, ISO elevati o altre condizioni difficili. Questi dataset testano se un modello è in grado di gestire rumore complesso e non Gaussiano che non può essere facilmente simulato.
Ecco alcuni dataset rumorosi reali popolari:
- SIDD: Questo dataset fornisce coppie di immagini reali rumorose e pulite catturate con sensori di smartphone in una serie di ambienti di illuminazione.
- DND: Include fotografie ad alto ISO che catturano pattern di rumore del sensore realistici riscontrati nelle fotocamere consumer.

Fig 4. Un esempio dal dataset DND. (Fonte)
Link to this sectionFattori da considerare quando si addestra un modello di riduzione del rumore auto-supervisionato#
Ecco alcuni fattori e limitazioni da considerare se hai intenzione di addestrare un modello di riduzione del rumore auto-supervisionato basato sul deep learning:
- Abbina la distribuzione del rumore: Le immagini rumorose utilizzate per l'addestramento dovrebbero riflettere lo stesso rumore che il modello incontrerà nell'uso reale; un rumore non corrispondente porta a una scarsa generalizzazione.
- Assicurati la diversità dei dati di addestramento: Una variazione limitata può causare overfitting o eccessiva levigatura nelle texture complesse.
- Sii consapevole delle limitazioni del tipo di rumore: I metodi auto-supervisionati faticano maggiormente con rumore strutturato, correlato o non casuale.
- Testa su diversi dispositivi o sensori: Le prestazioni di riduzione del rumore possono variare notevolmente tra diverse fotocamere o sistemi di imaging.
Link to this sectionPunti chiave#
La riduzione del rumore auto-supervisionata offre agli appassionati di AI un modo pratico per ripulire le immagini utilizzando solo i dati rumorosi che già possediamo. Imparando a riconoscere la struttura reale sotto il rumore, questi metodi possono recuperare dettagli visivi importanti. Man mano che la tecnologia di riduzione del rumore continua a migliorare, probabilmente renderà un'ampia gamma di attività di computer vision più affidabile nelle impostazioni quotidiane.
Diventa parte della nostra crescente community! Immergiti nel nostro repository GitHub per saperne di più sull'AI. Se stai cercando di costruire soluzioni di computer vision, dai un'occhiata alle nostre opzioni di licenza. Esplora i vantaggi della computer vision nel retail e scopri come l'AI nella produzione sta facendo la differenza!






