Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Applicazioni di Segment Anything Model 2 (SAM 2) di Meta AI

Abirami Vina

5 minuti di lettura

31 luglio 2024

Unisciti a noi mentre approfondiamo il Segment Anything Model 2 (SAM 2) di Meta AI e comprendiamo per quali applicazioni in tempo reale può essere utilizzato in vari settori.

Il 29 luglio 2024, Meta AI ha rilasciato la seconda versione del suo Segment Anything Model, SAM 2. Il nuovo modello è in grado di individuare quali pixel appartengono a un oggetto target sia nelle immagini che nei video! L'aspetto migliore è che il modello è in grado di seguire costantemente un oggetto in tutti i fotogrammi di un video in tempo reale. SAM 2 apre interessanti possibilità per l'editing video, le esperienze di realtà mista e l'annotazione più rapida dei dati visivi per l'addestramento di sistemi di computer vision.

Sulla base del successo del SAM originale, che è stato utilizzato in settori come la scienza marina, l'imaging satellitare e la medicina, SAM 2 affronta sfide come gli oggetti in rapido movimento e i cambiamenti di aspetto. La sua maggiore precisione ed efficienza lo rendono uno strumento versatile per una vasta gamma di applicazioni. In questo articolo, ci concentreremo su dove SAM 2 può essere applicato e sul perché è importante per la comunità dell'IA.

Cos'è SAM 2?

Segment Anything Model 2 è un modello di base avanzato che supporta la segmentazione visiva guidata da prompt o PVS sia in immagini che in video. La PVS è una tecnica in cui un modello può segmentare o identificare diverse parti di un'immagine o di un video in base a prompt o input specifici forniti dall'utente. Questi prompt possono essere sotto forma di clic, caselle o maschere che evidenziano l'area di interesse. Il modello genera quindi una maschera di segmentazione che delinea l'area specificata.

L'architettura SAM 2 si basa sul SAM originale espandendosi dalla segmentazione delle immagini per includere anche la segmentazione video. È dotata di un decoder di maschere leggero che utilizza i dati dell'immagine e i prompt per creare maschere di segmentazione. Per i video, SAM 2 introduce un sistema di memoria che aiuta a ricordare le informazioni dei fotogrammi precedenti, garantendo un tracciamento accurato nel tempo. Il sistema di memoria include componenti che memorizzano e richiamano i dettagli sugli oggetti da segmentare. SAM 2 può anche gestire le occlusioni, tracciare gli oggetti attraverso più fotogrammi e gestire i prompt ambigui generando diverse maschere possibili. L'architettura avanzata di SAM 2 lo rende altamente capace sia in ambienti visivi statici che dinamici.

Nello specifico, per quanto riguarda la segmentazione video, SAM 2 raggiunge una maggiore accuratezza con un numero di interazioni utente tre volte inferiore rispetto ai metodi precedenti. Per la segmentazione delle immagini, SAM 2 supera l'originale Segment Anything Model (SAM), risultando sei volte più veloce e più preciso. Questo miglioramento è stato dimostrato nel documento di ricerca SAM 2 su 37 diversi set di dati, inclusi 23 su cui SAM era stato precedentemente testato. 

Fig. 1. Confronto tra SAM e SAM 2.

È interessante notare che SAM 2 di Meta AI è stato sviluppato creando il più grande dataset di segmentazione video fino ad oggi, il dataset SA-V. L'ampio dataset include oltre 50.000 video e 35,5 milioni di maschere di segmentazione ed è stato raccolto attraverso contributi interattivi degli utenti. Gli annotatori hanno fornito suggerimenti e correzioni per aiutare il modello a imparare da un'ampia varietà di scenari e tipi di oggetti.

Applicazioni di Segment Anything Model 2

Grazie alle sue avanzate capacità di segmentazione di immagini e video, SAM 2 può essere utilizzato in vari settori. Esploriamo alcune di queste applicazioni.

SAM 2 abilita la realtà aumentata (AR) e la realtà virtuale (VR)

Il nuovo modello di segmentazione di Meta AI può essere utilizzato per applicazioni di realtà aumentata (AR) e realtà virtuale (VR). Ad esempio, SAM 2 può identificare e segmentare accuratamente oggetti del mondo reale e rendere più realistica l'interazione con oggetti virtuali. Può essere utile in vari settori come gaming, istruzione e formazione, dove è essenziale un'interazione realistica tra elementi virtuali e reali.

Con dispositivi come gli occhiali AR che diventano sempre più avanzati, le capacità di SAM 2 potrebbero presto essere integrate in essi. Immagina di indossare gli occhiali e guardarti intorno nel tuo salotto. Quando i tuoi occhiali segmentano e notano la ciotola dell'acqua del tuo cane, potrebbero ricordarti di riempirla, come mostrato nell'immagine qui sotto. Oppure, se stai cucinando una nuova ricetta, gli occhiali potrebbero identificare gli ingredienti sul tuo piano di lavoro e fornire istruzioni e suggerimenti passo dopo passo, migliorando la tua esperienza culinaria e assicurandoti di avere tutti gli elementi necessari a portata di mano.

Fig. 2. SAM 2 potrebbe presto essere utilizzato negli occhiali AR.

Imaging sonar con Segment Anything Model 2

La ricerca che utilizza il modello SAM ha dimostrato che può essere applicato in domini specializzati come l'imaging sonar. L'imaging sonar presenta sfide uniche a causa della sua bassa risoluzione, degli alti livelli di rumore e delle forme complesse degli oggetti all'interno delle immagini. Mettendo a punto SAM per le immagini sonar, i ricercatori hanno dimostrato la sua capacità di segmentare accuratamente vari oggetti sottomarini come detriti marini, formazioni geologiche e altri elementi di interesse. L'imaging sottomarino preciso e affidabile può essere utilizzato nella ricerca marina, nell'archeologia sottomarina, nella gestione della pesca e nella sorveglianza per compiti come la mappatura degli habitat, la scoperta di manufatti e il rilevamento delle minacce.

Fig. 3. Un esempio di utilizzo di SAM ottimizzato per la segmentazione di immagini sonar.

Poiché SAM 2 si basa e migliora molte delle sfide che SAM deve affrontare, ha il potenziale per migliorare ulteriormente l'analisi dell'imaging sonar. Le sue precise capacità di segmentazione possono aiutare in varie applicazioni marine, tra cui la ricerca scientifica e la pesca. Ad esempio, SAM 2 può delineare efficacemente le strutture sottomarine, rilevare i detriti marini e identificare gli oggetti nelle immagini sonar orientate in avanti, contribuendo a un'esplorazione e un monitoraggio sottomarino più accurati ed efficienti.

Ecco i potenziali vantaggi dell'utilizzo di SAM 2 per analizzare l'imaging sonar:

  • Efficienza: Riduce i tempi e gli sforzi necessari per la segmentazione manuale, consentendo ai professionisti di concentrarsi maggiormente sull'analisi e sul processo decisionale.
  • Coerenza: Fornisce risultati di segmentazione coerenti e riproducibili, essenziali per la ricerca e il monitoraggio marini su larga scala.
  • Versatilità: In grado di gestire un'ampia gamma di immagini sonar, rendendolo utile per diverse applicazioni nella scienza e nell'industria marina.

Integrando SAM 2 nei processi di imaging sonar, l'industria marittima può ottenere maggiore efficienza, accuratezza e affidabilità nell'esplorazione e nell'analisi subacquea, portando in definitiva a risultati migliori nella ricerca marina.

Utilizzo di SAM 2 nei veicoli autonomi

Un'altra applicazione di SAM 2 è nei veicoli autonomi. SAM 2 può identificare accuratamente oggetti come pedoni, altri veicoli, segnali stradali e ostacoli in tempo reale. Il livello di dettaglio che SAM 2 può fornire è essenziale per prendere decisioni di navigazione sicura ed evitare collisioni. Elaborando i dati visivi in modo preciso, SAM 2 aiuta a creare una mappa dettagliata e affidabile dell'ambiente e porta a un processo decisionale migliore.

Fig 4. Utilizzo della segmentazione per comprendere il traffico. 

La capacità di SAM 2 di funzionare bene in diverse condizioni di illuminazione, cambiamenti meteorologici e ambienti dinamici lo rende affidabile per i veicoli autonomi. Che si tratti di una strada urbana trafficata o di un'autostrada nebbiosa, SAM 2 può identificare e segmentare costantemente gli oggetti in modo accurato in modo che il veicolo possa rispondere correttamente a varie situazioni. 

Tuttavia, è bene tenere a mente alcune limitazioni. Per oggetti complessi e in rapido movimento, SAM 2 a volte può perdere dettagli importanti e le sue previsioni possono diventare instabili tra i frame. Inoltre, SAM 2 può confondere più oggetti simili in scene affollate. Queste sfide evidenziano l'importanza dell'integrazione di sensori e tecnologie aggiuntive nelle applicazioni di guida autonoma.

Monitoraggio ambientale con l'aiuto di SAM 2

Il monitoraggio ambientale tramite computer vision può essere complesso, soprattutto quando mancano dati annotati, ma è anche ciò che lo rende un'applicazione interessante per SAM 2. SAM 2 può essere utilizzato per tracciare e analizzare i cambiamenti nei paesaggi naturali segmentando e identificando accuratamente varie caratteristiche ambientali come foreste, corpi idrici, aree urbane e terreni agricoli da immagini satellitari o di droni. In particolare, una segmentazione precisa aiuta a monitorare la deforestazione, l'urbanizzazione e i cambiamenti nell'uso del suolo nel tempo, fornendo dati preziosi per la conservazione ambientale e la pianificazione.

Ecco alcuni dei vantaggi derivanti dall'utilizzo di un modello come SAM 2 per analizzare i cambiamenti ambientali nel tempo:

  • Rilevamento precoce: Identifica i primi segni di degrado ambientale, consentendo interventi tempestivi per prevenire ulteriori danni.
  • Gestione delle risorse: Assiste nella gestione efficiente delle risorse naturali fornendo informazioni dettagliate sullo stato delle varie caratteristiche ambientali.
  • Conservazione della biodiversità: Aiuta a tracciare la fauna selvatica e a monitorare la biodiversità, contribuendo agli sforzi di conservazione e alla protezione delle specie in via di estinzione.
  • Risposta ai disastri: Aiuta a valutare l'impatto di disastri naturali come inondazioni, incendi e uragani, consentendo una risposta rapida ed efficace ai disastri e una pianificazione del recupero.

Video editing con SAM 2: Provalo tu stesso

La demo Segment Anything 2 è un ottimo modo per provare il modello su un video. Utilizzando le funzionalità PVS di SAM 2, abbiamo preso un vecchio video di Ultralytics su YouTube e siamo stati in grado di segmentare tre oggetti o persone nel video e pixelarli. Tradizionalmente, modificare tre individui da un video come quello richiederebbe tempo e sarebbe noioso e richiederebbe il mascheramento manuale fotogramma per fotogramma. Tuttavia, SAM 2 semplifica questo processo. Con pochi clic sulla demo, puoi proteggere l'identità di tre oggetti di interesse in pochi secondi.

Fig 6. Provando la Demo SAM 2. 

La demo permette anche di provare diversi effetti visivi, come mettere in evidenza gli oggetti selezionati per il tracciamento e cancellare gli oggetti tracciati. Se la demo ti è piaciuta e sei pronto per iniziare a innovare con SAM 2, consulta la pagina della documentazione del modello Ultralytics SAM 2 per istruzioni dettagliate su come utilizzare il modello. Esplora le funzionalità, i passaggi di installazione e gli esempi per sfruttare appieno il potenziale di SAM 2 nei tuoi progetti!

Conclusione

Segment Anything Model 2 (SAM 2) di Meta AI sta trasformando la segmentazione di video e immagini. Con il miglioramento di attività come il tracciamento degli oggetti, stiamo scoprendo nuove opportunità nell'editing video, nella realtà mista, nella ricerca scientifica e nell'imaging medicale. Semplificando attività complesse e accelerando le annotazioni, SAM 2 è destinato a diventare uno strumento importante per la comunità dell'AI. Mentre continuiamo a esplorare e innovare con modelli come SAM 2, possiamo anticipare applicazioni e progressi ancora più rivoluzionari in vari campi!

Scopri di più sull'IA esplorando il nostro repository GitHub e unendoti alla nostra community. Consulta le nostre pagine delle soluzioni per informazioni dettagliate sull'IA nella produzione e nell'assistenza sanitaria. 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti