Come l'apprendimento auto-supervisionato migliora il denoising delle immagini

Le immagini fanno parte della nostra vita quotidiana, dalle foto che scattiamo ai video registrati dalle telecamere nei luoghi pubblici. Esse contengono informazioni utili e la tecnologia più avanzata permette di analizzare e interpretare questi dati.

In particolare, la computer vision, una branca dell'intelligenza artificiale (AI), consente alle macchine di elaborare le informazioni visive e di comprendere ciò che vedono, proprio come fanno gli esseri umani. Tuttavia, nelle applicazioni reali, le immagini sono spesso tutt'altro che perfette.

Il rumore dell'immagine causato da pioggia, polvere, scarsa illuminazione o limitazioni del sensore può nascondere dettagli importanti, rendendo più difficile per i modelli Vision AI il detect oggetti o l'interpretazione accurata delle scene. Il denoising delle immagini aiuta a ridurre il rumore, consentendo ai modelli Vision AI di vedere i dettagli più chiaramente e di fare previsioni migliori.

‍

Figura 1. Un esempio di denoising di un'immagine.(Fonte)

‍

Tradizionalmente, il denoising delle immagini si basa sull'apprendimento supervisionato, in cui i modelli vengono addestrati utilizzando coppie di immagini rumorose e pulite per imparare a rimuovere il rumore. Tuttavia, la raccolta di immagini di riferimento perfettamente pulite non è sempre pratica.

Per affrontare questa sfida, i ricercatori hanno sviluppato denoisers di immagini auto-supervisionati. L'obiettivo è quello di addestrare i modelli di intelligenza artificiale ad apprendere direttamente dai dati, creando i propri segnali di apprendimento per rimuovere il rumore e mantenere i dettagli importanti senza bisogno di immagini di riferimento pulite.

In questo articolo esamineremo più da vicino i denoisers di immagini auto-supervisionati, il loro funzionamento, le tecniche chiave e le loro applicazioni reali. Iniziamo!

Che cos'è il denoising auto-supervisionato delle immagini?

Le immagini rumorose possono rendere difficile ai modelli Vision AI l'interpretazione del contenuto di una foto. Una foto scattata in condizioni di scarsa illuminazione, ad esempio, può apparire sgranata o sfocata, nascondendo caratteristiche sottili che aiutano il modello a identificare con precisione gli oggetti.

Nel denoising basato sull'apprendimento supervisionato, i modelli vengono addestrati utilizzando coppie di immagini, una rumorosa e una pulita, per imparare a rimuovere il rumore indesiderato. Sebbene questo approccio funzioni bene, la raccolta di dati di riferimento perfettamente puliti è spesso lunga e difficile negli scenari reali.

Ecco perché i ricercatori si sono rivolti al denoising auto-supervisionato delle immagini. Il denoising auto-supervisionato delle immagini si basa sul concetto di apprendimento auto-supervisionato, in cui i modelli si auto-apprendono creando i propri segnali di apprendimento dai dati.

Poiché questo metodo non dipende da grandi insiemi di dati etichettati, il denoising auto-supervisionato è più veloce, più scalabile e più facile da applicare in domini come la fotografia in condizioni di scarsa illuminazione, l'imaging medico e l'analisi delle immagini satellitari, dove spesso non sono disponibili immagini di riferimento pulite.

Invece di basarsi su immagini di riferimento pulite, questo approccio si allena direttamente sui dati rumorosi, prevedendo i pixel mascherati o ricostruendo le parti mancanti. Grazie a questo processo, il modello impara a distinguere i dettagli significativi dell'immagine dal rumore casuale, ottenendo risultati più chiari e accurati.

Sebbene possa sembrare simile all'apprendimento non supervisionato, l'apprendimento auto-supervisionato ne è in realtà un caso speciale. La distinzione fondamentale è che nell'apprendimento auto-supervisionato il modello crea le proprie etichette o segnali di addestramento dai dati per imparare un compito specifico. Al contrario, l'apprendimento non supervisionato si concentra sulla ricerca di schemi o strutture nascoste nei dati senza alcun compito esplicito o obiettivo predefinito.

Strategie di apprendimento nel denoising auto-supervisionato

Per quanto riguarda il denoising auto-supervisionato, esistono diversi modi in cui avviene l'apprendimento. Alcuni modelli di denoising auto-supervisionato riempiono i pixel mascherati o mancanti, mentre altri confrontano più versioni rumorose della stessa immagine per trovare dettagli coerenti.

Ad esempio, un metodo popolare noto come apprendimento a punti ciechi si concentra sull'addestramento del modello di denoiser a ignorare il pixel che sta ricostruendo e a basarsi invece sul contesto circostante. Nel corso del tempo, il modello ricostruisce immagini di alta qualità preservando texture, bordi e colori essenziali.

Come funziona l'apprendimento auto-supervisionato per eliminare il rumore

Successivamente, esploreremo il processo di rimozione del rumore da parte dell'apprendimento auto-supervisionato.

Il processo di denoising auto-supervisionato inizia in genere alimentando le immagini rumorose con il modello di denoising. Il modello analizza i pixel vicini per stimare l'aspetto di ciascun pixel non chiaro o mascherato, imparando gradualmente a distinguere il rumore dai dettagli visivi reali.

Consideriamo un'immagine di un cielo scuro e sgranato. Il modello esamina le stelle vicine e i modelli circostanti per prevedere come dovrebbe apparire ogni zona rumorosa senza il rumore. Ripetendo questo processo sull'intera immagine, impara a separare il rumore casuale dalle caratteristiche significative, producendo un risultato più chiaro e accurato.

In altre parole, il modello predice una versione più pulita dell'immagine in base al contesto, senza mai aver bisogno di un riferimento perfettamente pulito. Questo processo può essere implementato utilizzando diversi tipi di modelli, ciascuno con punti di forza unici nella gestione del rumore.

Tipi di modelli utilizzati per la riduzione autosupervisionata del rumore delle immagini

Ecco una rapida panoramica dei tipi di modelli comunemente utilizzati per il denoising auto-supervisionato delle immagini:

Reti neurali convoluzionali (CNN): Le CNN sono modelli di apprendimento profondo progettati per riconoscere modelli in piccole regioni di un'immagine. Esaminano le immagini utilizzando filtri per detect bordi, forme e texture. Nel denoising auto-supervisionato, utilizzano spesso tecniche di blind-spot, in cui il pixel target viene escluso dall'input e il modello ne predice il valore basandosi solo sui pixel circostanti. In questo modo il modello evita di copiare il rumore e infonde invece dettagli più puliti.
Autoencoder: Gli autoencoder sono reti neurali che imparano a comprimere e ricostruire i dati. Prima riducono un'immagine in una rappresentazione più piccola (codifica) e poi la ricostruiscono (decodifica). Nel processo, imparano a catturare le caratteristiche visive importanti, come forme e texture, filtrando al contempo il rumore casuale e i dettagli irrilevanti.
Modelli basati sui trasformatori: I trasformatori sono modelli originariamente sviluppati per l'elaborazione del linguaggio naturale, ma ora ampiamente utilizzati per compiti di visione. Elaborano l'intera immagine in una sola volta, imparando come le diverse regioni si relazionano tra loro. Questa prospettiva globale consente loro di preservare i dettagli fini e la coerenza strutturale, anche in immagini complesse o ad alta risoluzione.

Figura 2. Un'architettura basata su CNN utilizzata per il denoising auto-supervisionato delle immagini.(Fonte)

‍

L'addestramento di questi modelli con immagini scattate con diverse impostazioni di illuminazione e ISO li aiuta a lavorare bene in molte situazioni reali. Nelle fotocamere digitali, le impostazioni ISO controllano quanto la fotocamera illumina l'immagine amplificando il segnale che riceve.

Un ISO più alto rende le foto più luminose nei luoghi bui, ma aumenta anche il rumore e riduce i dettagli. Imparando dalle immagini scattate a diversi livelli ISO, i modelli diventano più bravi a distinguere i dettagli reali dal rumore, ottenendo risultati più chiari e accurati.

Come fa un denoiser a capire cosa è rumore e cosa è reale?

I denoisers imparano a distinguere il rumore dai dettagli reali dell'immagine attraverso diverse tecniche di addestramento, che sono separate dai tipi di modello utilizzati per il denoising. I tipi di modello, come le CNN, gli autoencoder e i trasformatori, descrivono la struttura della rete e il modo in cui elabora le informazioni visive.

Le tecniche di addestramento, invece, definiscono il modo in cui il modello apprende. Alcuni metodi utilizzano una previsione basata sul contesto, in cui il modello riempie i pixel mancanti o mascherati utilizzando le informazioni delle aree vicine.

Altri utilizzano l'apprendimento basato sulla ricostruzione, in cui il modello comprime un'immagine in una forma più semplice e poi la ricostruisce, aiutandola a riconoscere strutture significative come bordi e texture, filtrando al contempo il rumore casuale.

Insieme, il tipo di modello e la tecnica di addestramento determinano l'efficacia con cui un denoiser può pulire le immagini. Combinando la giusta architettura con il giusto approccio di apprendimento, i denoisers auto-supervisionati possono adattarsi a molti tipi di rumore e produrre immagini più chiare e accurate anche senza dati di riferimento puliti.

Tecniche chiave per il denoising di immagini AI auto-supervisionate

Ecco alcune delle tecniche di addestramento più diffuse che consentono un efficace denoising auto-supervisionato delle immagini:

Noise2Noise: Questo metodo addestra un modello utilizzando due versioni rumorose della stessa immagine. Poiché il rumore in ogni versione è casuale, il modello impara a concentrarsi sui dettagli coerenti che rappresentano l'immagine reale e a ignorare il rumore. Funziona meglio quando sono disponibili più acquisizioni rumorose della stessa scena, come nella fotografia a raffica o nell'imaging medico e scientifico.
Noise2Void o Noise2Self: queste tecniche si addestrano su una singola immagine rumorosa nascondendo (mascherando) un pixel e chiedendo al modello di prevedere il suo valore in base ai pixel circostanti. Questo impedisce al modello di copiare semplicemente i dati rumorosi e lo aiuta ad apprendere la struttura naturale delle immagini. Sono particolarmente utili quando è disponibile una sola immagine rumorosa, come nel caso della microscopia, dell'astronomia o della fotografia in condizioni di scarsa illuminazione.
Reti a punti ciechi: Sono progettate appositamente in modo che il modello non possa vedere il pixel che sta ricostruendo. Si basa invece sulle informazioni dell'area circostante per stimare l'aspetto di quel pixel. In questo modo la rimozione del rumore è più accurata e imparziale e vengono spesso combinate con i metodi Noise2Void o Noise2Self nelle operazioni di denoising pixel-wise.
Autoencoder mascherati (MAE): In questo approccio, alcune parti dell'immagine sono nascoste e il modello impara a ricostruire le aree mancanti. In questo modo, impara sia i dettagli fini che la struttura generale, aiutando a distinguere il contenuto reale dal rumore. Gli autoencoder mascherati sono particolarmente efficaci per le immagini ad alta risoluzione o complesse, dove la comprensione del contesto generale migliora il restauro.

Valutazione dei sistemi di denoising delle immagini

Il denoising delle immagini è un attento equilibrio tra due obiettivi: ridurre il rumore e mantenere intatti i dettagli fini. Una quantità eccessiva di denoising può far apparire un'immagine morbida o sfocata, mentre una quantità troppo bassa può lasciare grana o artefatti indesiderati.

Per capire quanto un modello riesca a raggiungere questo equilibrio, i ricercatori utilizzano metriche di valutazione che misurano sia la chiarezza dell'immagine che la conservazione dei dettagli. Queste metriche mostrano quanto un modello pulisca un'immagine senza perdere importanti informazioni visive.

Ecco le metriche di valutazione più comuni che aiutano a misurare la qualità dell'immagine e le prestazioni di denoising:

Errore quadratico medio (MSE): Misura la differenza quadratica media tra l'immagine originale e quella denoised. Evidenzia quanto il risultato sia vicino all'originale a livello di pixel. Valori più bassi di MSE significano meno errori e un risultato più accurato.
Rapporto segnale/rumore di picco (PSNR): questa metrica confronta la forza del segnale dell'immagine originale con il rumore rimanente, espresso in decibel. Si usa per vedere quanti dettagli originali sono stati mantenuti dopo il denoising. Valori PSNR più elevati significano immagini più chiare e di qualità superiore.
Misura dell'indice di somiglianza strutturale (SSIM): SSIM valuta la struttura, la luminosità e il contrasto per valutare la somiglianza tra l'immagine denoised e l'originale. Si concentra sul modo in cui gli esseri umani vedono le immagini, non solo sui numeri grezzi. Punteggi SSIM più alti significano che l'immagine appare più naturale e fedele all'originale.
Metriche percettive: Queste metriche utilizzano modelli di deep learning per giudicare l'aspetto realistico e naturale di un'immagine. Invece di confrontare i singoli pixel, si concentrano sull'aspetto generale, sulla texture e sulla somiglianza visiva. Nella maggior parte dei casi, punteggi più bassi significano che l'immagine è più vicina all'originale e più gradevole per gli esseri umani.

Applicazioni del denoising auto-supervisionato

Ora che abbiamo capito meglio cos'è il denoising, analizziamo come il denoising autosupervisionato delle immagini viene applicato in scenari reali.

Utilizzo del denoising auto-supervisionato in astrofotografia

Scattare foto chiare di stelle e galassie non è facile. Il cielo notturno è buio, quindi le fotocamere spesso richiedono lunghi tempi di esposizione, che possono introdurre rumore indesiderato. Questo rumore può offuscare i dettagli cosmici più fini e rendere i segnali deboli più difficili da detect.

Gli strumenti di denoising tradizionali possono aiutare a ridurre il rumore, ma spesso rimuovono anche dettagli importanti. Il denoising auto-supervisionato offre un'alternativa più intelligente. Imparando direttamente dalle immagini rumorose, il modello di intelligenza artificiale è in grado di riconoscere i modelli che rappresentano caratteristiche reali e di separarli dal rumore casuale.

Il risultato sono immagini molto più chiare di oggetti celesti come stelle, galassie e il Sole, che rivelano dettagli deboli che altrimenti potrebbero passare inosservati. Può anche migliorare le caratteristiche astronomiche più sottili, migliorando la chiarezza delle immagini e rendendo i dati più utili per la ricerca scientifica.

‍

Figura 3. Il denoising delle immagini può migliorare le immagini astrofotografiche.(Fonte)

‍

Denoising auto-supervisionato per le immagini mediche

Le scansioni mediche come le risonanze magnetiche, le tomografie e le immagini al microscopio spesso raccolgono disturbi che possono rendere più difficile la visione di piccoli dettagli. Questo può essere un problema quando i medici devono individuare i primi segni di malattia o track cambiamenti nel tempo.

Il rumore dell'immagine può derivare dal movimento del paziente, dalla bassa potenza del segnale o dai limiti di irradiazione. Per rendere più chiare le scansioni mediche, i ricercatori hanno esplorato metodi di denoising auto-supervisionati come Noise2Self e altri approcci simili.

Questi modelli sono stati addestrati direttamente su immagini di risonanza magnetica cerebrale rumorose, imparando da soli i modelli di rumore e ripulendoli senza bisogno di esempi perfettamente chiari. Le immagini elaborate hanno mostrato texture più nitide e un contrasto migliore, rendendo più facile l'identificazione delle strutture fini. Questi denoisers alimentati dall'intelligenza artificiale semplificano il flusso di lavoro nella diagnostica per immagini e migliorano l'efficienza dell'analisi in tempo reale.

‍

Figura 4. Utilizzo di diverse tecniche di denoising auto-supervisionato su scansioni di risonanza magnetica cerebrale.(Fonte)

‍

Miglioramento dei sistemi di visione con denoising auto-supervisionato

Nella maggior parte dei casi, il denoising ha un impatto significativo su un'ampia gamma di applicazioni di computer vision. Rimuovendo i rumori e le distorsioni indesiderate, si ottengono dati di input più puliti e coerenti da elaborare per i modelli di IA di visione.

Immagini più chiare consentono di migliorare le prestazioni in compiti di computer vision come il rilevamento di oggetti, la segmentazione di istanze e il riconoscimento di immagini. Ecco alcuni esempi di applicazioni in cui i modelli di Vision AI, come ad esempio Ultralytics YOLO11 e Ultralytics YOLO26, possono beneficiare del denoising:

Ispezione industriale: Il denoising consente di rilevare con maggiore precisione i difetti o le anomalie superficiali negli ambienti di produzione, migliorando il controllo della qualità.
Guida autonoma e navigazione: Migliora il rilevamento degli oggetti e degli ostacoli in condizioni difficili come la scarsa illuminazione, la pioggia o la nebbia, migliorando la sicurezza e l'affidabilità complessive.
Sorveglianza e sicurezza: Il denoising migliora la qualità delle immagini in condizioni di scarsa illuminazione o di elevata compressione, consentendo una migliore identificazione e localizzazione di oggetti o persone.
Immagini subacquee: Il denoising riduce la dispersione e la distorsione della luce, migliorando la visibilità e il riconoscimento degli oggetti in condizioni di torbidità sottomarina.

Pro e contro del denoising auto-supervisionato

Ecco alcuni vantaggi principali dell'utilizzo del denoising auto-supervisionato nei sistemi di imaging:

Adattabilità al rumore: I metodi di denoising auto-supervisionati possono apprendere direttamente dai dati rumorosi senza richiedere riferimenti puliti accoppiati. Ciò li rende altamente adattabili a un'ampia gamma di livelli e tipi di rumore del mondo reale, come il rumore del sensore, la sfocatura del movimento o l'interferenza ambientale.
Conservazione dei dettagli: Se ben progettati, questi modelli preservano le trame e i bordi sottili, essenziali per un'interpretazione accurata delle immagini. Approcci come le reti a punti ciechi e l'apprendimento basato sul mascheramento aiutano a mantenere le informazioni strutturali riducendo il rumore.
Meno pre-elaborazione: Imparando a mappare gli input rumorosi in rappresentazioni pulite utilizzando solo i dati disponibili, il modello riduce al minimo la necessità di filtri manuali, algoritmi di denoising artigianali o set di dati di allenamento curati.

Nonostante i suoi vantaggi, il denoising auto-supervisionato presenta anche alcune limitazioni. Ecco alcuni fattori da considerare:

Requisiti computazionali: Le architetture neurali profonde utilizzate per il denoising auto-supervisionato, in particolare i modelli basati su trasformatori, possono richiedere una notevole potenza di calcolo e risorse di memoria rispetto alle tecniche di filtraggio tradizionali.
Complessità della progettazione del modello: Il raggiungimento di risultati ottimali richiede un'attenta selezione delle impostazioni del modello, come la strategia di mascheramento e la funzione di perdita, che possono variare a seconda dei diversi tipi di rumore.
Sfide della valutazione: I comuni parametri di qualità delle immagini non sempre corrispondono all'aspetto naturale o realistico di un'immagine denoisata, per cui spesso sono necessari controlli visivi o specifici per l'attività.

Punti chiave

Il denoising auto-supervisionato aiuta i modelli AI ad apprendere direttamente dalle immagini rumorose, producendo risultati più chiari e preservando i dettagli più fini. Funziona efficacemente in una varietà di scenari difficili, come la scarsa illuminazione, gli alti ISO e le immagini dettagliate. Con la continua evoluzione dell'intelligenza artificiale, queste tecniche svolgeranno probabilmente un ruolo essenziale in varie applicazioni di visione artificiale.

Unitevi alla nostra comunità ed esplorate il nostro repository GitHub per scoprire di più sull'IA. Se volete creare il vostro progetto Vision AI, date un'occhiata alle nostre opzioni di licenza. Per saperne di più su applicazioni come l'IA nella sanità e l'IA di visione nella vendita al dettaglio, visitate le nostre pagine dedicate alle soluzioni.

Utilizzo dell'apprendimento auto-supervisionato per il denoising delle immagini

Che cos'è il denoising auto-supervisionato delle immagini?

Strategie di apprendimento nel denoising auto-supervisionato

Come funziona l'apprendimento auto-supervisionato per eliminare il rumore

Tipi di modelli utilizzati per la riduzione autosupervisionata del rumore delle immagini

Come fa un denoiser a capire cosa è rumore e cosa è reale?

Valutazione dei sistemi di denoising delle immagini

Applicazioni del denoising auto-supervisionato

Utilizzo del denoising auto-supervisionato in astrofotografia

Denoising auto-supervisionato per le immagini mediche

Miglioramento dei sistemi di visione con denoising auto-supervisionato

Pro e contro del denoising auto-supervisionato

Punti chiave

Leggi di più in questa categoria

Comprendere perché l'annotazione human-in-the-loop è fondamentale

Gli occhiali Oakley Meta AI stanno ridefinendo il concetto di occhiali con Vision AI

La visione artificiale sta rendendo più intelligenti i binocoli per il birdwatching

Costruiamo insieme il futuro
dell'AI!

Utilizzo dell'apprendimento auto-supervisionato per il denoising delle immagini

Che cos'è il denoising auto-supervisionato delle immagini?

Strategie di apprendimento nel denoising auto-supervisionato

Come funziona l'apprendimento auto-supervisionato per eliminare il rumore

Tipi di modelli utilizzati per la riduzione autosupervisionata del rumore delle immagini

Come fa un denoiser a capire cosa è rumore e cosa è reale?

Valutazione dei sistemi di denoising delle immagini

Applicazioni del denoising auto-supervisionato

Utilizzo del denoising auto-supervisionato in astrofotografia

Denoising auto-supervisionato per le immagini mediche

Miglioramento dei sistemi di visione con denoising auto-supervisionato

Pro e contro del denoising auto-supervisionato

Punti chiave

Leggi di più in questa categoria

Comprendere perché l'annotazione human-in-the-loop è fondamentale

Gli occhiali Oakley Meta AI stanno ridefinendo il concetto di occhiali con Vision AI

La visione artificiale sta rendendo più intelligenti i binocoli per il birdwatching

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!