Spiegazione della sogliatura nell'elaborazione delle immagini

Come esseri umani, vediamo le immagini come figure coerenti e significative, mentre i computer le visualizzano come griglie di minuscoli pixel, i componenti più piccoli di un'immagine digitale. In un processo chiamato elaborazione delle immagini, questi pixel possono essere regolati o analizzati per migliorare l'immagine ed estrarre informazioni utili.

Una tecnica comune di elaborazione delle immagini è chiamata sogliatura dell'immagine (image thresholding). Questo metodo converte le immagini in scala di grigi (dove ogni pixel rappresenta una tonalità di grigio) in immagini in bianco e nero confrontando ogni pixel con un valore impostato. Crea una chiara separazione tra le regioni importanti e lo sfondo.

La sogliatura viene spesso utilizzata nella segmentazione delle immagini, una tecnica che divide un'immagine in regioni significative per renderla più facile da analizzare. È tipicamente uno dei primi passaggi per aiutare le macchine a interpretare i dati visivi. In questo articolo, esamineremo cos'è la sogliatura, come funziona e dove viene applicata in scenari del mondo reale. Iniziamo!

Terminologia di base nella sogliatura delle immagini

Prima di analizzare il funzionamento della sogliatura, esaminiamo innanzitutto i concetti di base che la sottendono e il suo utilizzo nell'elaborazione delle immagini.

Soglia dell'immagine binaria

Supponiamo che tu stia lavorando con un'immagine e desideri separare gli oggetti in essa dallo sfondo. Un modo per farlo è mediante la sogliatura. Semplifica l'immagine in modo che ogni pixel sia completamente nero o completamente bianco. Il risultato è un'immagine binaria, in cui ogni pixel ha un valore di 0 (nero) o 255 (bianco). Questo passaggio è spesso utile nell'elaborazione delle immagini perché fa risaltare chiaramente le parti importanti dell'immagine.

Fig. 1. Un'immagine in scala di grigi e la sua uscita binaria dopo la sogliatura. (Fonte)

‍

Istogramma

Allo stesso modo, se vuoi capire come sono distribuiti i valori di luminosità in un'immagine, un istogramma può aiutarti. È un grafico che mostra la frequenza con cui appare ogni intensità di pixel, dal nero (0) al bianco (255).

Osservando l'istogramma, è possibile capire se l'immagine è scura, luminosa o una via di mezzo. Questo rende più facile la scelta di un buon valore di soglia quando si trasforma l'immagine in bianco e nero, poiché è possibile individuare a colpo d'occhio schemi e livelli di contrasto.

Primo piano e sfondo

Una volta che un'immagine è stata sottoposta a thresholding, viene divisa in due parti: il primo piano e lo sfondo. Il primo piano, tipicamente mostrato in bianco, evidenzia gli elementi importanti, come testo, forme o oggetti che si desidera rilevare. Lo sfondo, mostrato in nero, è tutto il resto. Questa separazione aiuta le macchine a concentrarsi su ciò che conta nell'immagine.

Segmentazione

Come accennato in precedenza, la segmentazione divide un'immagine in regioni significative in base a caratteristiche come la luminosità o la texture. La sogliatura è un modo semplice per farlo ed è spesso uno dei primi passaggi in una pipeline di computer vision.

La computer vision è una branca dell'IA che consente alle macchine di elaborare e interpretare i dati visivi, proprio come fanno gli esseri umani. Utilizzando la sogliatura nelle prime fasi del processo, i sistemi di computer vision possono separare gli oggetti dallo sfondo, rendendo più facile il funzionamento accurato delle fasi successive, come il rilevamento o il riconoscimento.

Thresholding globale

Ora che abbiamo una migliore comprensione di cosa sia la sogliatura, vediamo come applicare la sogliatura a un'immagine e i diversi tipi di sogliatura nell'elaborazione delle immagini.

Ad esempio, la sogliatura globale è uno dei modi più semplici per creare un'immagine binaria. Applica un singolo valore di intensità all'intera immagine. I pixel più luminosi di questa soglia diventano bianchi, mentre quelli più scuri diventano neri. Questo aiuta a separare l'oggetto dallo sfondo.

Funziona meglio quando l'immagine ha un'illuminazione uniforme e un forte contrasto. Ma in condizioni di illuminazione non uniforme o in aree a basso contrasto, una singola soglia può far perdere dettagli o sfocare i bordi.

Per gestire questo problema, vengono utilizzati metodi come la sogliatura di Otsu. Invece di impostare un valore manualmente, il metodo di sogliatura di Otsu analizza l'istogramma dell'immagine e sceglie una soglia che separa al meglio le intensità dei pixel in primo piano e sfondo.

Fig. 2. Un'immagine di Saturno prima e dopo l'applicazione della sogliatura di Otsu. (Fonte)

‍

Soglia locale (adattiva)

A differenza della sogliatura globale, la sogliatura adattiva o locale calcola il valore di soglia separatamente per diverse parti dell'immagine. Questo la rende più efficace per le immagini con illuminazione non uniforme, come documenti scansionati con ombre o superfici strutturate.

Funziona dividendo l'immagine in piccole regioni e calcolando una soglia locale per ogni blocco, il che aiuta a mantenere il contrasto tra il primo piano e lo sfondo. Questo approccio è ampiamente utilizzato in attività come il riconoscimento del testo, l'imaging medicale e l'ispezione delle superfici, dove l'illuminazione varia nell'immagine.

Alcuni approcci comuni alla thresholding adattiva nell'elaborazione delle immagini includono la thresholding adattiva della media e la thresholding adattiva gaussiana. Nella thresholding adattiva della media, l'intensità media dei pixel in un intorno locale viene utilizzata come soglia per il pixel centrale. La thresholding adattiva gaussiana, d'altra parte, utilizza una media ponderata con una finestra gaussiana, dando più importanza ai pixel più vicini al centro.

Applicazioni reali della sogliatura nell'elaborazione delle immagini

Successivamente, esploriamo dove viene utilizzata la sogliatura delle immagini in applicazioni reali.

Soglia dell'immagine per la binarizzazione dei documenti e l'OCR

Vecchi libri e lettere scritte a mano vengono spesso scansionati per preservarli o convertirli in testo digitale utilizzando l'OCR (Optical Character Recognition), una tecnologia che legge caratteri stampati o scritti a mano. Prima che il testo possa essere estratto, il documento di solito necessita di pulizia o pre-elaborazione. Le immagini scansionate spesso presentano ombre, inchiostro sbiadito o illuminazione irregolare, il che può rendere difficile il riconoscimento dei caratteri.

Per migliorare la chiarezza, la sogliatura viene utilizzata per convertire le immagini in scala di grigi in formato binario, aiutando a isolare il testo dallo sfondo. Le aree più scure, come le lettere, diventano nere, mentre lo sfondo più chiaro diventa bianco, rendendo molto più facile per i sistemi OCR leggere il testo.

Fig. 3. Un esempio di documento storico e della sua immagine con soglia applicata. (Fonte)

‍

Utilizzo della sogliatura nell'elaborazione di immagini mediche

Allo stesso modo, nell'imaging medicale, la sogliatura viene comunemente utilizzata per isolare strutture specifiche nelle scansioni, come ossa o polmoni nelle immagini a raggi X. Convertendo le immagini in scala di grigi in formato binario, diventa più facile separare le regioni di interesse dal tessuto circostante e preparare l'immagine per ulteriori analisi. In casi più complessi, è possibile applicare la sogliatura multilivello per dividere l'immagine in diverse regioni distinte, consentendo l'identificazione simultanea di diversi tipi di tessuto o strutture.

Fig. 4. Utilizzo di metodi di thresholding multi-livello su radiografie del torace. (Fonte)

‍

Pro e contro della sogliatura nell'elaborazione delle immagini

Ecco alcuni dei principali vantaggi derivanti dall'utilizzo della sogliatura nell'elaborazione delle immagini:

Leggero in termini di risorse: La sogliatura funziona bene su dispositivi a bassa potenza e non necessita di accesso al cloud o hardware di fascia alta, rendendola adatta per sistemi embedded e configurazioni offline.
‍
Facile da interpretare: La sua semplice logica rende facile da capire e da sottoporre a debug le soglie di output, il che è fondamentale in settori come l'assistenza sanitaria o l'elaborazione di documenti, dove la trasparenza è importante.
‍
Test rapidi: La definizione di soglie consente ai team di esplorare rapidamente idee di segmentazione nelle prime fasi dei progetti prima di passare a modelli più complessi.

Sebbene la sogliatura delle immagini sia utile in molti scenari, presenta anche alcune limitazioni. Ecco alcune sfide relative alla sogliatura da considerare:

Manca di adattabilità: La sogliatura segue regole fisse e non si adatta a nuove condizioni di illuminazione o variazioni nei dati senza modifiche manuali.
‍
Sensibile al rumore: Piccoli cambiamenti nella luminosità dovuti a ombre o riflessi possono falsare i risultati, soprattutto quando si lavora con immagini dettagliate o strutturate.
‍
Statico e basato su regole: A differenza dei modelli di IA, la definizione di soglie non apprende dai dati né migliora nel tempo. Funziona solo all'interno delle ristrette condizioni per cui è stato progettato.

Oltre alla sogliatura delle immagini: quando la visione artificiale è lo strumento giusto

La sogliatura funziona bene per compiti di segmentazione semplici in ambienti controllati. Tuttavia, spesso fatica a gestire immagini complesse che hanno più oggetti o rumore di fondo. Poiché si basa su regole fisse, la sogliatura manca della flessibilità necessaria per la maggior parte delle applicazioni del mondo reale.

Per superare questi limiti, molti sistemi all'avanguardia utilizzano ora la computer vision. A differenza della sogliatura, i modelli Vision AI vengono addestrati per rilevare modelli e caratteristiche complesse, rendendoli molto più accurati e adattabili.

Ad esempio, i modelli di computer vision come Ultralytics YOLO11 possono rilevare oggetti e segmentare immagini in tempo reale. Questo li rende ideali per attività come l'individuazione di segnali stradali nei veicoli autonomi o l'identificazione di problemi colturali in agricoltura.

In particolare, YOLO11 supporta una serie di attività di computer vision, come la segmentazione delle istanze, in cui ogni oggetto in un'immagine viene segmentato separatamente. Può anche eseguire altre attività basate sulla visione, tra cui la stima della posa (determinazione della posizione o postura di un oggetto) e il tracciamento degli oggetti (seguire un oggetto mentre si muove attraverso i fotogrammi video).

Fig. 5. YOLO11 semplifica il rilevamento e la segmentazione degli oggetti. (Fonte)

Mentre la sogliatura funziona bene per compiti semplici o per testare idee iniziali, le applicazioni che richiedono velocità, accuratezza e flessibilità vengono solitamente gestite meglio con la computer vision.

Punti chiave

La sogliatura è uno strumento cruciale nell'elaborazione delle immagini perché è facile e veloce da usare per separare gli oggetti dallo sfondo. Funziona bene con documenti scansionati, immagini mediche e per il controllo dei difetti dei prodotti nelle fabbriche.

Tuttavia, man mano che le immagini e i video diventano più complessi, i metodi di elaborazione di base delle immagini, come la sogliatura, possono rivelarsi insufficienti. È qui che entrano in gioco i modelli avanzati di computer vision. Modelli come YOLO11 sono in grado di comprendere ed eseguire più attività, individuare molti oggetti contemporaneamente e operare in tempo reale, il che li rende utili per numerosi casi d'uso.

Vuoi saperne di più sull'IA? Dai un'occhiata alla nostra community e al repository GitHub. Esplora le nostre pagine delle soluzioni per saperne di più sull'IA nella robotica e sulla computer vision in agricoltura. Scopri le nostre opzioni di licenza e inizia subito a costruire con la computer vision!

Cos'è la sogliatura nell'elaborazione delle immagini?

Terminologia di base nella sogliatura delle immagini

Soglia dell'immagine binaria

Istogramma

Primo piano e sfondo

Segmentazione

Thresholding globale

Soglia locale (adattiva)

Applicazioni reali della sogliatura nell'elaborazione delle immagini

Soglia dell'immagine per la binarizzazione dei documenti e l'OCR

Utilizzo della sogliatura nell'elaborazione di immagini mediche

Pro e contro della sogliatura nell'elaborazione delle immagini

Oltre alla sogliatura delle immagini: quando la visione artificiale è lo strumento giusto

Punti chiave

Leggi di più in questa categoria

Dai bit ai qubit: Come l'ottimizzazione quantistica sta ridisegnando l'IA

Una guida rapida per i principianti su come addestrare un modello di IA

Esplorare l'apprendimento in ensemble e il suo ruolo nell'IA e nel ML

Costruiamo insieme il futuro
dell'AI!

Cos'è la sogliatura nell'elaborazione delle immagini?

Terminologia di base nella sogliatura delle immagini

Soglia dell'immagine binaria

Istogramma

Primo piano e sfondo

Segmentazione

Thresholding globale

Soglia locale (adattiva)

Applicazioni reali della sogliatura nell'elaborazione delle immagini

Soglia dell'immagine per la binarizzazione dei documenti e l'OCR

Utilizzo della sogliatura nell'elaborazione di immagini mediche

Pro e contro della sogliatura nell'elaborazione delle immagini

Oltre alla sogliatura delle immagini: quando la visione artificiale è lo strumento giusto

Punti chiave

Leggi di più in questa categoria

Dai bit ai qubit: Come l'ottimizzazione quantistica sta ridisegnando l'IA

Una guida rapida per i principianti su come addestrare un modello di IA

Esplorare l'apprendimento in ensemble e il suo ruolo nell'IA e nel ML

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!