Utilizzare l'apprendimento auto-supervisionato per rimuovere il rumore dalle immagini
Scopri come l'apprendimento auto-supervisionato rimuove il rumore dalle immagini, elimina il disturbo e migliora la chiarezza usando tecniche AI per fotografia, sistemi medici e di visione.

Le immagini fanno parte della nostra vita quotidiana, dalle foto che scattiamo ai video registrati dalle telecamere in luoghi pubblici. Contengono informazioni preziose e la tecnologia all'avanguardia rende possibile analizzare e interpretare questi dati.
In particolare, la visione artificiale, un ramo dell'intelligenza artificiale (AI), consente alle macchine di elaborare informazioni visive e comprendere ciò che vedono, proprio come fanno gli esseri umani. Tuttavia, nelle applicazioni del mondo reale, le immagini sono spesso tutt'altro che perfette.
Il rumore dell'immagine causato da pioggia, polvere, scarsa illuminazione o limitazioni del sensore può nascondere dettagli importanti, rendendo più difficile per i modelli di Vision AI rilevare oggetti o interpretare le scene con precisione. La rimozione del rumore (denoising) aiuta a ridurre questo disturbo, consentendo ai modelli di Vision AI di vedere i dettagli in modo più chiaro e di fare previsioni migliori.

Fig 1. Un esempio di rimozione del rumore da un'immagine. (Fonte)
Tradizionalmente, il denoising delle immagini si è basato sull'apprendimento supervisionato, in cui i modelli vengono addestrati utilizzando coppie di immagini rumorose e pulite per imparare come rimuovere il rumore. Tuttavia, raccogliere immagini di riferimento perfettamente pulite non è sempre pratico.
Per affrontare questa sfida, i ricercatori hanno sviluppato denoiser di immagini auto-supervisionati. L'obiettivo è addestrare i modelli di AI a imparare direttamente dai dati, creando i propri segnali di apprendimento per rimuovere il rumore e mantenere i dettagli importanti senza bisogno di immagini di riferimento pulite.
In questo articolo, analizzeremo più da vicino i denoiser di immagini auto-supervisionati, come funzionano, le tecniche chiave alla loro base e le loro applicazioni nel mondo reale. Iniziamo!
Link to this sectionCos'è il denoising delle immagini auto-supervisionato?#
Le immagini rumorose possono rendere difficile per i modelli di Vision AI interpretare ciò che è presente in una foto. Una foto scattata in condizioni di scarsa illuminazione, ad esempio, può apparire granulosa o sfocata, nascondendo sottili caratteristiche che aiutano un modello a identificare gli oggetti con precisione.
Nel denoising basato sull'apprendimento supervisionato, i modelli vengono addestrati utilizzando coppie di immagini, una rumorosa e una pulita, per imparare come eliminare il rumore indesiderato. Sebbene questo approccio funzioni bene, raccogliere dati di riferimento perfettamente puliti è spesso dispendioso in termini di tempo e difficile negli scenari del mondo reale.
Ecco perché i ricercatori si sono rivolti al denoising delle immagini auto-supervisionato. Il denoising delle immagini auto-supervisionato si basa sul concetto di apprendimento auto-supervisionato, in cui i modelli imparano autonomamente creando i propri segnali di apprendimento dai dati.
Poiché questo metodo non dipende da grandi set di dati etichettati, il denoising auto-supervisionato è più veloce, più scalabile e più facile da applicare in ambiti come la fotografia in condizioni di scarsa luce, l'imaging medico e l'analisi di immagini satellitari, dove le immagini di riferimento pulite sono spesso non disponibili.
Invece di affidarsi a immagini di riferimento pulite, questo approccio si addestra direttamente sui dati rumorosi prevedendo i pixel mascherati o ricostruendo le parti mancanti. Attraverso questo processo, il modello impara a distinguere tra dettagli significativi dell'immagine e rumore casuale, portando a output più chiari e accurati.
Sebbene possa sembrare simile all'apprendimento non supervisionato, l'apprendimento auto-supervisionato ne è in realtà un caso speciale. La distinzione chiave è che nell'apprendimento auto-supervisionato, il modello crea le proprie etichette o segnali di addestramento dai dati per imparare un compito specifico. Al contrario, l'apprendimento non supervisionato si concentra sulla ricerca di pattern o strutture nascoste nei dati senza alcun compito esplicito o obiettivo predefinito.
Link to this sectionStrategie di apprendimento nel denoising auto-supervisionato#
Per quanto riguarda il denoising auto-supervisionato, ci sono diversi modi in cui avviene l'apprendimento. Alcuni modelli di denoising auto-supervisionati riempiono i pixel mascherati o mancanti, mentre altri confrontano diverse versioni rumorose della stessa immagine per trovare dettagli coerenti.
Ad esempio, un metodo popolare noto come "blind-spot learning" si concentra sull'addestramento del modello di denoising affinché ignori il pixel che sta ricostruendo, affidandosi invece al contesto circostante. Nel tempo, il modello ricostruisce immagini di alta qualità preservando texture, bordi e colori essenziali.
Link to this sectionCome funziona l'apprendimento auto-supervisionato per rimuovere il rumore#
Successivamente, esploreremo il processo alla base del modo in cui l'apprendimento auto-supervisionato rimuove il rumore.
Il processo di denoising auto-supervisionato inizia solitamente inviando immagini rumorose al modello di denoising. Il modello analizza i pixel vicini per stimare come dovrebbe apparire ogni pixel non chiaro o mascherato, imparando gradualmente a distinguere tra rumore e veri dettagli visivi.
Considera l'immagine di un cielo scuro e granuloso. Il modello osserva le stelle vicine e i pattern circostanti per prevedere come dovrebbe apparire ogni zona rumorosa senza il rumore. Ripetendo questo processo sull'intera immagine, impara a separare il rumore casuale dalle caratteristiche significative, producendo un risultato più chiaro e preciso.
In altre parole, il modello prevede una versione più pulita dell'immagine basandosi sul contesto, senza mai aver bisogno di un riferimento perfettamente pulito. Questo processo può essere implementato utilizzando diversi tipi di modelli, ognuno con punti di forza unici nella gestione del rumore.
Link to this sectionTipi di modelli utilizzati per la riduzione del rumore delle immagini auto-supervisionata#
Ecco una rapida panoramica dei tipi di modelli comunemente utilizzati per il denoising delle immagini auto-supervisionato:
- Convolutional Neural Networks (CNNs): Le CNN sono modelli di deep learning progettati per riconoscere pattern in piccole regioni di un'immagine. Scansionano le immagini utilizzando filtri per rilevare bordi, forme e texture. Nel denoising auto-supervisionato, spesso utilizzano tecniche di blind-spot, in cui il pixel target viene escluso dall'input in modo che il modello preveda il suo valore basandosi solo sui pixel circostanti. Questo aiuta il modello a evitare di copiare il rumore e a dedurre invece dettagli più puliti.
- Autoencoder: Gli autoencoder sono reti neurali che imparano a comprimere e ricostruire i dati. Per prima cosa riducono un'immagine in una rappresentazione più piccola (codifica) e poi la ricostruiscono (decodifica). Nel processo, imparano a catturare caratteristiche visive importanti come forme e texture, filtrando al contempo il rumore casuale e i dettagli irrilevanti.
- Modelli basati su Transformer: I Transformer sono modelli originariamente sviluppati per l'elaborazione del linguaggio naturale ma ora ampiamente utilizzati per attività di visione. Elaborano l'intera immagine in una volta sola, imparando come le diverse regioni si relazionano tra loro. Questa prospettiva globale consente loro di preservare dettagli fini e coerenza strutturale, anche in immagini complesse o ad alta risoluzione.

Fig 2. Uno sguardo a un'architettura basata su CNN utilizzata per il denoising delle immagini auto-supervisionato. (Fonte)
Addestrare questi modelli con immagini scattate con diverse impostazioni di illuminazione e ISO li aiuta a funzionare bene in molte situazioni del mondo reale. Nelle fotocamere digitali, le impostazioni ISO controllano quanto la fotocamera illumina l'immagine amplificando il segnale che riceve.
Un ISO più elevato rende le foto più luminose in luoghi bui ma aumenta anche il rumore e riduce i dettagli. Imparando da immagini scattate a diversi livelli ISO, i modelli diventano più bravi a distinguere i dettagli reali dal rumore, portando a risultati più chiari e accurati.
Link to this sectionCome fa un denoiser a imparare cosa è rumore e cosa è reale?#
I denoiser imparano a distinguere il rumore dai dettagli reali dell'immagine attraverso diverse tecniche di addestramento, che sono separate dai tipi di modello utilizzati per il denoising. Tipi di modelli come CNN, autoencoder e transformer descrivono la struttura della rete e come elabora le informazioni visive.
Le tecniche di addestramento, d'altra parte, definiscono come il modello impara. Alcuni metodi utilizzano la previsione basata sul contesto, in cui il modello riempie i pixel mancanti o mascherati utilizzando le informazioni provenienti dalle aree vicine.
Altri utilizzano l'apprendimento basato sulla ricostruzione, in cui il modello comprime un'immagine in una forma più semplice e poi la ricostruisce, aiutandolo a riconoscere strutture significative come bordi e texture mentre filtra il rumore casuale.
Insieme, il tipo di modello e la tecnica di addestramento determinano quanto efficacemente un denoiser può pulire le immagini. Combinando l'architettura giusta con l'approccio di apprendimento corretto, i denoiser auto-supervisionati possono adattarsi a molti tipi di rumore e produrre immagini più chiare e accurate anche senza dati di riferimento puliti.
Link to this sectionTecniche chiave nel denoising di immagini AI auto-supervisionato#
Ecco alcune delle tecniche di addestramento più utilizzate che consentono un denoising delle immagini auto-supervisionato efficace:
- Noise2Noise: Questo metodo addestra un modello utilizzando due versioni rumorose della stessa immagine. Poiché il rumore in ogni versione è casuale, il modello impara a concentrarsi sui dettagli coerenti che rappresentano l'immagine reale e a ignorare il rumore. Funziona meglio quando sono disponibili più acquisizioni rumorose della stessa scena, come nella fotografia a raffica o nell'imaging medico e scientifico.
- Noise2Void o Noise2Self: Queste tecniche si addestrano su una singola immagine rumorosa nascondendo (mascherando) un pixel e chiedendo al modello di prevederne il valore basandosi sui pixel circostanti. Questo impedisce al modello di copiare semplicemente i dati rumorosi e lo aiuta a imparare la struttura naturale delle immagini. Sono particolarmente utili quando è disponibile una sola immagine rumorosa, come in microscopia, astronomia o fotografia in condizioni di scarsa illuminazione.
- Reti a punto cieco (Blind-spot networks): Sono appositamente progettate in modo che il modello non possa vedere il pixel che sta ricostruendo. Si affida invece alle informazioni provenienti dall'area circostante per stimare come dovrebbe apparire quel pixel. Questo rende la rimozione del rumore più accurata e imparziale, e spesso vengono combinate con metodi Noise2Void o Noise2Self in attività di denoising basate sui pixel.
- Masked Autoencoders (MAE): In questo approccio, parti di un'immagine vengono nascoste e il modello impara a ricostruire le aree mancanti. Facendo ciò, apprende sia i dettagli fini che la struttura complessiva, aiutandolo a distinguere il contenuto reale dal rumore. Gli autoencoder mascherati sono particolarmente efficaci per immagini ad alta risoluzione o complesse dove la comprensione del contesto più ampio migliora il restauro.
Link to this sectionValutazione dei sistemi di denoising delle immagini#
Il denoising delle immagini è un attento equilibrio tra due obiettivi: ridurre il rumore e mantenere intatti i dettagli fini. Troppo denoising può far apparire un'immagine morbida o sfocata, mentre troppo poco può lasciare grana o artefatti indesiderati.
Per capire quanto bene un modello raggiunge questo equilibrio, i ricercatori utilizzano metriche di valutazione che misurano sia la chiarezza dell'immagine che la conservazione dei dettagli. Queste metriche mostrano quanto bene un modello pulisce un'immagine senza perdere importanti informazioni visive.
Ecco le metriche di valutazione comuni che aiutano a misurare la qualità dell'immagine e le prestazioni del denoising:
- Mean Squared Error (MSE): Misura la differenza media al quadrato tra l'immagine originale e quella sottoposta a denoising. Evidenzia quanto l'output sia vicino all'originale a livello di pixel. Valori MSE inferiori significano meno errori e un risultato più accurato.
- Peak Signal-to-Noise Ratio (PSNR): Questa metrica confronta la forza del segnale dell'immagine originale con il rumore rimanente, espresso in decibel. Viene utilizzata per vedere quanta parte del dettaglio originale è stata mantenuta dopo il denoising. Valori PSNR più elevati indicano immagini più chiare e di qualità superiore.
- Structural Similarity Index Measure (SSIM): SSIM valuta la struttura, la luminosità e il contrasto per valutare la somiglianza tra l'immagine sottoposta a denoising e quella originale. Si concentra su come gli esseri umani vedono le immagini, non solo su numeri grezzi. Punteggi SSIM più alti significano che l'immagine sembra più naturale e fedele all'originale.
- Metriche percettive: Queste metriche utilizzano modelli di deep learning per giudicare quanto un'immagine sembri realistica e naturale. Invece di confrontare i singoli pixel, si concentrano sull'aspetto generale, sulla texture e sulla somiglianza visiva. Nella maggior parte dei casi, punteggi più bassi significano che l'immagine sembra più vicina all'originale e più visivamente piacevole per gli esseri umani.
Link to this sectionApplicazioni del denoising auto-supervisionato#
Ora che abbiamo una migliore comprensione di cosa sia il denoising, esploriamo come il denoising delle immagini auto-supervisionato viene applicato in scenari del mondo reale.
Link to this sectionUtilizzo del denoising auto-supervisionato nell'astrofotografia#
Scattare foto chiare di stelle e galassie non è facile. Il cielo notturno è buio, quindi le fotocamere richiedono spesso lunghi tempi di esposizione, che possono introdurre rumore indesiderato. Questo rumore può sfocare i dettagli cosmici fini e rendere più difficile rilevare i segnali deboli.
Gli strumenti di denoising tradizionali possono aiutare a ridurre il rumore, ma spesso rimuovono insieme a esso dettagli importanti. Il denoising auto-supervisionato offre un'alternativa più intelligente. Imparando direttamente dalle immagini rumorose, il modello AI può riconoscere pattern che rappresentano caratteristiche reali e separarli dal rumore casuale.
Il risultato sono immagini molto più chiare di oggetti celesti come stelle, galassie e il Sole, rivelando dettagli deboli che altrimenti potrebbero passare inosservati. Può anche migliorare sottili caratteristiche astronomiche, migliorando la chiarezza dell'immagine e rendendo i dati più utili per la ricerca scientifica.

Fig 3. Il denoising delle immagini può migliorare le immagini di astrofotografia. (Fonte)
Link to this sectionDenoising auto-supervisionato per l'imaging medico#
Le scansioni mediche come risonanze magnetiche, TAC e immagini di microscopia spesso catturano rumore che può rendere più difficile vedere i piccoli dettagli. Questo può essere un problema quando i medici devono individuare i primi segni di malattia o monitorare i cambiamenti nel tempo.
Il rumore dell'immagine può provenire dal movimento del paziente, dalla bassa intensità del segnale o da limiti sulla quantità di radiazioni che possono essere utilizzate. Per rendere più chiare le scansioni mediche, i ricercatori hanno esplorato metodi di denoising auto-supervisionato come Noise2Self e altri approcci simili.
Questi modelli vengono addestrati direttamente su immagini rumorose di risonanze magnetiche cerebrali, imparando i pattern di rumore autonomamente e pulendoli senza bisogno di esempi perfettamente chiari. Le immagini elaborate hanno mostrato texture più nitide e un contrasto migliore, rendendo più facile identificare strutture fini. Tali denoiser potenziati dall'AI semplificano il flusso di lavoro nell'imaging diagnostico e migliorano l'efficienza dell'analisi in tempo reale.

Fig 4. Utilizzo di diverse tecniche di denoising auto-supervisionato su scansioni di risonanza magnetica cerebrale. (Fonte)
Link to this sectionMigliorare i sistemi di visione con il denoising auto-supervisionato#
Nella maggior parte dei casi, il denoising ha un impatto significativo su un'ampia gamma di applicazioni di visione artificiale. Rimuovendo rumore e distorsioni indesiderati, produce dati di input più puliti e coerenti che i modelli di Vision AI possono elaborare.
Immagini più chiare portano a prestazioni migliorate in attività di visione artificiale come rilevamento di oggetti, segmentazione di istanze e riconoscimento di immagini. Ecco alcuni esempi di applicazioni in cui i modelli di Vision AI, come Ultralytics YOLO11 e Ultralytics YOLO26, possono beneficiare del denoising:
- Ispezione industriale: Il denoising favorisce un rilevamento più accurato di difetti superficiali o anomalie negli ambienti di produzione, portando a un miglior controllo qualità.
- Guida autonoma e navigazione: Migliora il rilevamento di oggetti e ostacoli in condizioni difficili come scarsa illuminazione, pioggia o nebbia, migliorando la sicurezza e l'affidabilità complessive.
- Sorveglianza e sicurezza: Il denoising migliora la qualità dell'immagine in feed video a bassa illuminazione o ad alta compressione, consentendo una migliore identificazione e tracciamento di oggetti o persone.
- Imaging subacqueo: Il denoising riduce lo scattering e la distorsione della luce, migliorando la visibilità e il riconoscimento degli oggetti in condizioni subacquee torbide.
Link to this sectionPro e contro del denoising auto-supervisionato#
Ecco alcuni vantaggi chiave dell'utilizzo del denoising auto-supervisionato nei sistemi di imaging:
- Adattabilità al rumore: I metodi di denoising auto-supervisionato possono imparare direttamente dai dati rumorosi senza richiedere riferimenti puliti accoppiati. Questo li rende altamente adattabili a un'ampia gamma di livelli e tipi di rumore del mondo reale, come rumore del sensore, motion blur o interferenze ambientali.
- Conservazione dei dettagli: Se ben progettati, questi modelli preservano texture e bordi fini che sono essenziali per un'accurata interpretazione dell'immagine. Approcci come le reti a punto cieco e l'apprendimento basato sul mascheramento aiutano a mantenere le informazioni strutturali riducendo al contempo il rumore.
- Minore pre-elaborazione: Imparando a mappare input rumorosi verso rappresentazioni pulite utilizzando solo i dati disponibili, il modello riduce al minimo la necessità di filtraggio manuale, algoritmi di denoising artigianali o set di dati di addestramento curati.
Nonostante i suoi vantaggi, il denoising auto-supervisionato presenta anche alcune limitazioni. Ecco alcuni fattori da considerare:
- Requisiti computazionali: Le architetture neurali profonde utilizzate per il denoising auto-supervisionato, specialmente i modelli basati su transformer, possono richiedere una notevole potenza di calcolo e risorse di memoria rispetto alle tecniche di filtraggio tradizionali.
- Complessità di progettazione del modello: Ottenere risultati ottimali richiede un'attenta selezione delle impostazioni del modello, come la strategia di mascheramento e la funzione di perdita, che possono variare a seconda dei diversi tipi di rumore.
- Sfide di valutazione: Le metriche comuni per la qualità dell'immagine non corrispondono sempre a quanto naturale o realistica appaia un'immagine sottoposta a denoising, quindi sono spesso necessari controlli visivi o specifici per l'attività.
Link to this sectionPunti chiave#
Il denoising auto-supervisionato aiuta i modelli di AI a imparare direttamente dalle immagini rumorose, producendo risultati più chiari preservando i dettagli fini. Funziona efficacemente in una varietà di scenari impegnativi, come bassa illuminazione, ISO elevato e immagini dettagliate. Man mano che l'AI continua a evolversi, tali tecniche svolgeranno probabilmente un ruolo essenziale in varie applicazioni di visione artificiale.
Unisciti alla nostra community ed esplora il nostro repository GitHub per scoprire di più sull'AI. Se stai cercando di costruire il tuo progetto di Vision AI, dai un'occhiata alle nostre opzioni di licenza. Esplora ulteriori informazioni su applicazioni come l'AI nell'assistenza sanitaria e la Vision AI nel commercio al dettaglio visitando le nostre pagine delle soluzioni.






