Glossario

Segmentazione semantica

Scoprite la potenza della segmentazione semantica: classificate ogni pixel delle immagini per una comprensione precisa della scena. Esplora subito applicazioni e strumenti!

La segmentazione semantica è un compito fondamentale della computer vision (CV) che prevede l'assegnazione di un'etichetta di classe specifica a ogni singolo pixel di un'immagine. A differenza di altri compiti di visione che potrebbero identificare oggetti o classificare l'intera immagine, la segmentazione semantica fornisce una comprensione densa, a livello di pixel, del contenuto della scena. Ciò significa che non si limita a rilevare la presenza di un'auto, ma delinea con precisione quali pixel appartengono alla categoria delle auto, differenziandoli da quelli appartenenti alla strada, al cielo o ai pedoni. L'obiettivo è quello di suddividere un'immagine in regioni significative corrispondenti a diverse categorie di oggetti, fornendo una comprensione completa dell'ambiente visivo.

Come funziona la segmentazione semantica

L'obiettivo principale della segmentazione semantica è classificare ogni pixel di un'immagine in un insieme predefinito di categorie. Ad esempio, in un'immagine contenente più auto, pedoni e alberi, un modello di segmentazione semantica etichetterà tutti i pixel che compongono un' auto come "auto", tutti i pixel di un pedone come "pedone" e tutti i pixel di un albero come "albero". Tratta tutte le istanze della stessa classe di oggetti in modo identico.

La moderna segmentazione semantica si basa molto sul deep learning, in particolare sulle reti neurali convoluzionali (CNN). Questi modelli sono in genere addestrati con tecniche di apprendimento supervisionato, che richiedono grandi set di dati con annotazioni dettagliate a livello di pixel. Il processo prevede l'immissione di un'immagine nella rete, che poi produce una mappa di segmentazione. Questa mappa è essenzialmente un'immagine in cui il valore di ogni pixel (spesso rappresentato da un colore) corrisponde all'etichetta di classe prevista, separando visivamente diverse categorie come "strada", "edificio", "persona", ecc. La qualità dell'etichettatura dei dati è fondamentale per addestrare modelli accurati.

Principali differenze rispetto ad altri compiti di segmentazione

È importante distinguere la segmentazione semantica dalle attività di computer vision correlate:

  • Classificazione dell'immagine: Assegna una singola etichetta all'intera immagine (ad esempio, "questa immagine contiene un gatto"). Non individua o delinea gli oggetti.
  • Rilevamento degli oggetti: Identifica e localizza gli oggetti utilizzando i riquadri di delimitazione. Indica la posizione degli oggetti, ma non fornisce la loro forma esatta a livello di pixel.
  • Segmentazione delle istanze: Fa un passo avanti rispetto alla segmentazione semantica, non solo classificando ogni pixel, ma anche distinguendo tra diverse istanze della stessa classe di oggetti. Ad esempio, assegna un ID e una maschera unici a ogni singola auto presente nella scena. Per maggiori dettagli, consultare la guida che mette a confronto la segmentazione di istanza e quella semantica.
  • Segmentazione panottica: Combina la segmentazione semantica e quella di istanza, fornendo sia un'etichetta di categoria per ogni pixel sia ID di istanza univoci per gli oggetti contabilie ("cose"), raggruppando al contempo le regioni di sfondo non contabilie ("cose") come il cielo o la strada.

Applicazioni del mondo reale

La comprensione dettagliata della scena fornita dalla segmentazione semantica è fondamentale per molte applicazioni del mondo reale:

Modelli e strumenti

La segmentazione semantica impiega spesso modelli di apprendimento profondo, in particolare architetture derivate dalle CNN.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti