Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Segmentazione Panottica

Scopri come la segmentazione panottica unifica la segmentazione semantica e di istanza per una precisa comprensione a livello di pixel della scena nelle applicazioni di IA.

La segmentazione panottica è un compito di computer vision (CV) che combina le due approcci distinti: lasegmentazionesemantica e lasegmentazionedelle e la segmentazione di istanza perfornire una comprensione completa a livello di pixel di un'immagine. Mentre altri metodi possono concentrarsi esclusivamente sull'identificazione di oggetti o sulla regioni, la segmentazione panottica assegna un'etichetta unica a ogni pixel di una scena visiva. Questo processo distingue tra "cose" - regioni di sfondo amorfe come il cielo, la strada o l'erba - e "cose" - oggetti "cose", ovvero oggetti contestabili come persone, automobili e animali. Collegando queste tecniche, sistemi di intelligenza artificiale (AI) ottengono una visione olistica dell'ambiente, imitando la percezione dettagliata della visione umana.

La differenza tra le tecniche di segmentazione

Per comprendere appieno il valore della segmentazione panottica, è utile distinguerla dai compiti di segmentazione delle immagini correlati. segmentazione delle immagini:

  • Segmentazione semantica: Questo metodo assegna un'etichetta di classe a ogni pixel, ma tratta più oggetti della stessa categoria come una singola entità. entità. Ad esempio, una folla di persone viene etichettata come una regione "persona" unificata, senza distinguere i singoli membri. i singoli membri.
  • Segmentazione delle istanze: Questa tecnica si concentra esclusivamente sull'identificazione e la delimitazione di oggetti ("cose") distinti e conteggiabili. Genera un riquadro di delimitazione e una maschera precisi per ogni " auto" o "pedone". per ogni "auto" o "pedone", ma in genere ignora gli elementi dello sfondo.
  • Segmentazione panottica: Questo approccio fonde i due, assicurando che nessun pixel venga lasciato non classificato. Fornisce fornisce un contesto per lo sfondo ("cose") mantenendo l'identità unica degli oggetti in primo piano ("cose"). oggetti in primo piano ("cose"). Il concetto è stato formalizzato in un documento di riferimento di FAIR (Meta AI), che stabilisce uno standard rigoroso per il parsing totale della scena. parsing totale della scena.

Come funzionano i modelli panottici

Le moderne architetture panottiche sfruttano in genere potenti framework di strutture di deep learning (DL). Spesso impiegano un estrattore di caratteristiche condiviso, o backbone, come una rete neurale convoluzionale (CNN) o un Vision Transformer (ViT). La rete si divide poi in due teste specializzate: una per l'analisi semantica e l'altra per l'identificazione dell'istanza. Algoritmi avanzati algoritmi avanzati fondono questi risultati per risolvere i conflitti, come la sovrapposizione delle previsioni, ottenendo una mappa panottica coesa. mappa.

L'addestramento di questi modelli richiede dataset annotati. I benchmark più diffusi includono il COCO Dataset, che fornisce una vasta gamma di oggetti di uso quotidiano, e Cityscapes, che è specializzato in scene di strade urbane, essenziali per la ricerca per la ricerca automobilistica.

Applicazioni nel mondo reale

Il dettaglio granulare offerto dalla segmentazione panottica sta trasformando i settori che si affidano all'apprendimento automatico (ML) per navigare e interagire. apprendimento automatico (ML) per navigare e interagire con il mondo fisico. con il mondo fisico.

  • Veicoli autonomi: Le auto a guida autonoma di aziende come Waymo e Tesla dipendono dalla comprensione totale della scena. Tesla dipendono dalla comprensione totale della scena. I modelli panottici consentono al veicolo di definire le superfici percorribili ("cose" semantiche), tracciando contemporaneamente la traiettoria di singoli pedoni e altri veicoli (istanze "cose"). pedoni e di altri veicoli (istanza "cose").
  • Analisi delle immagini mediche: Nell'assistenza sanitaria, la precisione è fondamentale. Analizzare scansioni MRI spesso richiede la distinzione tra tipi di tessuto generali e anomalie specifiche. La segmentazione panottica aiuta i radiologi a identificare gli organi di fondo e al contempo a contare e misurare le singole cellule tumorali, contribuendo a un'accurata individuazione del tumore.
  • Robotica e agricoltura: I robot in ambienti non strutturati utilizzano questa tecnologia per la manipolazione e la navigazione. Nell'agricoltura di agricoltura di precisione, le mietitrici automatiche possono distinguere le file di colture (sfondo) dai singoli frutti maturi (istanze) per raccogliere i prodotti senza danneggiare la pianta. pianta.

Segmentazione delle istanze con YOLO

Mentre le architetture panottiche complete possono essere computazionalmente intensive, la componente "cose" - identificare distinte istanze di oggetti, è gestita in modo efficiente da Ultralytics YOLO11. YOLO11 offre lo stato dell'arte in tempo reale, il che lo rende una scelta eccellente per le scelta per le applicazioni che richiedono velocità e precisione.

Il seguente Python mostra come utilizzare il metodo ultralytics per eseguire la segmentazione delle istanze, un elemento chiave della comprensione panottica:

from ultralytics import YOLO

# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with segmentation masks
results[0].show()

Per gli sviluppatori che costruiscono pipeline complesse, framework come PyTorch e librerie come OpenCV consentono un'ulteriore elaborazione di queste mappe di segmentazione. È possibile imparare di più su modelli di segmentazione personalizzati per soddisfare le esigenze specifiche del progetto nella documentazione di Ultralytics .

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora