Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

Esplorando SAM 3: il nuovo Segment Anything Model di Meta AI

Scopri come SAM 3, il nuovo Segment Anything Model di Meta AI, facilita il rilevamento, la segmentazione e il tracciamento di oggetti su immagini e video del mondo reale.

ABAbirami Vina
5 min read
Il Segment Anything Model SAM 3 di Meta AI

Il 19 novembre 2025, Meta AI ha rilasciato il Segment Anything Model 3, noto anche come SAM 3. Quest'ultima versione del Segment Anything Model introduce nuovi modi per rilevare, segmentare e tracciare oggetti in immagini e video del mondo reale utilizzando prompt testuali, visivi ed esempi di immagini.

Il modello SAM 3 si basa su SAM e SAM 2 e introduce nuovi progressi e funzionalità come la segmentazione dei concetti, il rilevamento con vocabolario aperto e il tracciamento video in tempo reale. È in grado di comprendere brevi frasi nominali, seguire oggetti tra i fotogrammi e identificare concetti raffinati o rari che i modelli precedenti non riuscivano a gestire con la stessa coerenza.

Come parte del rilascio di SAM 3, Meta ha introdotto anche SAM 3D. Questa suite di modelli di nuova generazione ricostruisce oggetti, scene e corpi umani completi a partire da una singola immagine ed espande l'ecosistema Segment Anything nella comprensione 3D. Queste aggiunte aprono nuove applicazioni nella computer vision, nella robotica, nell'editing multimediale e nei flussi di lavoro creativi.

In questo articolo esploreremo cos'è SAM 3, cosa lo distingue da SAM 2, come funziona il modello e le sue applicazioni nel mondo reale. Cominciamo!

Link to this sectionCos'è SAM 3? Uno sguardo al Segment Anything Model 3 di Meta#

SAM 3 è un computer vision model all'avanguardia in grado di identificare, separare e tracciare oggetti in immagini e video basandosi su semplici istruzioni. Invece di fare affidamento su un elenco fisso di etichette, SAM 3 comprende il linguaggio naturale e i segnali visivi, rendendo facile indicare al modello ciò che vuoi trovare.

Ad esempio, con SAM 3, puoi digitare una breve frase come “scuolabus giallo” o “gatto striato”, cliccare su un oggetto o evidenziare un esempio in un'immagine. Il modello rileverà quindi ogni oggetto corrispondente e genererà maschere di segmentazione pulite (un contorno visivo che mostra esattamente quali pixel appartengono a un oggetto). SAM 3 può anche seguire tali oggetti tra i fotogrammi video, mantenendoli coerenti mentre si muovono.

Link to this sectionSAM 3D abilita la ricostruzione 3D da singola immagine#

Un'altra parte entusiasmante dell'annuncio di Meta AI è SAM 3D, che estende il progetto Segment Anything alla 3D understanding. SAM 3D può prendere una singola immagine 2D e ricostruire la forma, la posa o la struttura di un oggetto o di un corpo umano in tre dimensioni. In altre parole, il modello può stimare come un elemento occupa lo spazio anche quando è disponibile un solo punto di vista.

SAM 3D è stato rilasciato sotto forma di due modelli diversi: SAM 3D Objects, che ricostruisce oggetti di uso quotidiano con geometria e texture, e SAM 3D Body, che stima la forma e la posa del corpo umano da una singola immagine. Entrambi i modelli utilizzano l'output di segmentazione di SAM 3 per generare una rappresentazione 3D che si allinea all'aspetto e alla posizione dell'oggetto nella foto originale.

Un esempio dell'utilizzo di SAM 3D

Fig 1. Un esempio di utilizzo di SAM 3D. (Fonte: Creato utilizzando il playground di Segment Anything di Meta AI)

Link to this sectionSAM 3: nuove funzionalità per unificare rilevamento, segmentazione e tracciamento#

Ecco alcuni dei principali aggiornamenti introdotti da SAM 3 per riunire rilevamento, segmentazione e tracciamento in un unico modello unificato:

  • Attività di segmentazione dei concetti: In SAM e SAM 2, la segmentazione degli oggetti dipendeva da prompt visivi come clic o riquadri. SAM 3 aggiunge la capacità di segmentare oggetti basandosi su una breve frase testuale o su un ritaglio di esempio dall'immagine. Ciò significa che il modello può identificare tutte le istanze corrispondenti senza richiedere un clic per ciascuna di esse.
  • Prompt testuali con vocabolario aperto: A differenza delle versioni precedenti, SAM 3 può interpretare brevi frasi in linguaggio naturale. Questo elimina la necessità di un elenco fisso di etichette e rende possibile per il modello lavorare con concetti più specifici o meno comuni.
  • Un modello per rilevamento, segmentazione e tracciamento: SAM 3 unifica rilevamento, segmentazione e tracciamento in un unico modello, eliminando la necessità di sistemi separati per trovare oggetti, generare maschere di segmentazione e seguirli tra i fotogrammi video. Ciò crea un flusso di lavoro più coerente e snello sia per le immagini che per i video e, sebbene anche SAM 2 offrisse alcune funzionalità di tracciamento, SAM 3 offre prestazioni significativamente più solide e affidabili.
  • Risultati più stabili in scene complesse: Poiché SAM 3 può combinare testo, immagini di esempio e prompt visivi, può gestire scene ingombre o ripetitive in modo più affidabile rispetto alle versioni precedenti che si basavano solo sui clic visivi.

Segmentazione concettuale di SAM 3 con esempi di testo o immagini

Fig 2. SAM 3 introduce la segmentazione dei concetti con esempi di testo o immagini. (Fonte)

Link to this sectionConfronto tra SAM 3, SAM 2 e SAM 1#

Immaginiamo che tu stia guardando un video di un safari con molti animali diversi e che tu voglia rilevare e segmentare solo gli elefanti. Come apparirebbe questo compito nelle diverse versioni di SAM?

Con SAM, dovresti cliccare manualmente su ogni elefante in ogni fotogramma per generare una maschera di segmentazione. Non c'è tracciamento, quindi ogni nuovo fotogramma richiede nuovi clic.

Con SAM 2, potresti cliccare una volta su un elefante, ottenere la sua maschera e il modello traccerebbe quello stesso elefante nel video. Tuttavia, dovresti comunque fornire clic separati se volessi segmentare più elefanti (oggetti specifici), poiché SAM 2 non comprende autonomamente categorie come “elefante”.

Con SAM 3, il flusso di lavoro diventa molto più semplice. Puoi digitare “elefante” o disegnare un riquadro di delimitazione attorno a un singolo elefante per fornire un esempio, e il modello troverà automaticamente ogni elefante nel video, segmentandolo e tracciandolo in modo coerente tra i fotogrammi. Supporta ancora i prompt tramite clic e riquadri utilizzati nelle versioni precedenti, ma ora può anche rispondere a prompt testuali e immagini esemplificative, cosa che SAM e SAM 2 non potevano fare.

Link to this sectionCome funziona il modello SAM 3#

Ora, diamo un'occhiata più da vicino a come funziona il modello SAM 3 e a come è stato addestrato.

Link to this sectionUna panoramica dell'architettura del modello SAM 3#

SAM 3 riunisce diversi componenti per supportare prompt di concetto e prompt visivi in un unico sistema. Fondamentalmente, il modello utilizza il Meta Perception Encoder, ovvero l'encoder immagine-testo unificato open source di Meta.

Questo encoder può elaborare sia immagini che brevi frasi nominali. In parole povere, ciò consente a SAM 3 di collegare il linguaggio e le caratteristiche visive in modo più efficace rispetto alle versioni precedenti del Segment Anything Model.

Oltre a questo encoder, SAM 3 include un rilevatore basato sulla famiglia di modelli Transformer DETR. Questo rilevatore identifica gli oggetti nell'immagine e aiuta il sistema a determinare quali oggetti corrispondono al prompt dell'utente.

Nello specifico, per la segmentazione video, SAM 3 utilizza un componente di tracciamento basato sul banco di memoria e sull'encoder di memoria di SAM 2. Ciò consente al modello di conservare informazioni sugli oggetti tra i fotogrammi in modo da poterli ri-identificare e tracciare nel tempo.

Come funziona la segmentazione di qualsiasi cosa con i concetti

Fig 3. Come funziona la segmentazione di qualsiasi cosa con i concetti (Fonte: scontent)

Link to this sectionIl motore dati scalabile dietro il Segment Anything Model 3#

Per addestrare SAM 3, Meta aveva bisogno di molti più dati annotati di quelli attualmente esistenti su Internet. Le maschere di segmentazione ed etichette testuali di alta qualità sono difficili da creare su larga scala, e delineare completamente ogni istanza di un concetto in immagini e video è lento e costoso.

Per risolvere il problema, Meta ha costruito un nuovo motore dati che combina SAM 3 stesso, modelli AI aggiuntivi e annotatori umani che lavorano insieme. Il flusso di lavoro inizia con una pipeline di sistemi AI, tra cui SAM 3 e un modello di sottotitolazione basato su Llama.

Questi sistemi scansionano ampie raccolte di immagini e video, generano didascalie, convertono tali didascalie in etichette testuali e producono candidati iniziali di maschere di segmentazione. Annotatori umani e AI revisionano quindi questi candidati.

Gli annotatori AI, addestrati per eguagliare o addirittura superare l'accuratezza umana in attività come il controllo della qualità delle maschere e la verifica della copertura dei concetti, filtrano i casi semplici. Gli esseri umani intervengono solo per esempi più complessi in cui il modello potrebbe ancora avere difficoltà.

Data engine di SAM 3

Fig 4. Motore dati SAM 3 (Fonte)

Questo approccio offre a Meta un notevole incremento nella velocità di annotazione. Consentendo agli annotatori AI di gestire i casi facili, la pipeline diventa circa cinque volte più veloce sui prompt negativi e il 36% più veloce sui prompt positivi in domini raffinati.

Questa efficienza ha reso possibile scalare il set di dati a oltre quattro milioni di concetti unici. Il ciclo costante di proposte AI, correzioni umane e previsioni aggiornate del modello migliora anche la qualità delle etichette nel tempo e aiuta SAM 3 ad apprendere un insieme molto più ampio di concetti basati su immagini e testo.

Link to this sectionMiglioramenti delle prestazioni di SAM 3#

Per quanto riguarda le prestazioni, SAM 3 offre un chiaro miglioramento rispetto ai modelli precedenti. Nel nuovo benchmark SA-Co di Meta, che valuta il rilevamento e la segmentazione di concetti con vocabolario aperto, SAM 3 ottiene circa il doppio delle prestazioni dei sistemi precedenti sia nelle immagini che nei video.

Eguaglia o supera anche SAM 2 in attività visive interattive come point-to-mask e mask-to-masklet. Meta riporta ulteriori guadagni in valutazioni più complesse come lo zero-shot LVIS (in cui i modelli devono riconoscere categorie rare senza esempi di addestramento) e il conteggio degli oggetti (misurando se tutte le istanze di un oggetto vengono rilevate), evidenziando una maggiore generalizzazione tra i domini.

Oltre a questi miglioramenti dell'accuratezza, SAM 3 è efficiente: elabora un'immagine con oltre 100 oggetti rilevati in circa 30 millisecondi su una GPU H200 e mantiene velocità quasi in tempo reale durante il tracciamento di più oggetti in video.

Link to this sectionApplicazioni del Segment Anything Model 3#

Ora che abbiamo una migliore comprensione di SAM 3, esaminiamo come viene utilizzato in applicazioni reali, dal ragionamento avanzato guidato dal testo alla ricerca scientifica fino ai prodotti di Meta stessa.

Link to this sectionGestione di query testuali complesse utilizzando SAM 3 Agent#

SAM 3 può essere utilizzato anche come strumento all'interno di un modello linguistico multimodale più ampio, che Meta chiama SAM 3 Agent. Invece di fornire a SAM 3 una breve frase come “elefante”, l'agente può suddividere una domanda più complicata in prompt più piccoli che SAM 3 è in grado di comprendere.

Ad esempio, se l'utente chiede: “Quale oggetto nell'immagine viene utilizzato per controllare e guidare un cavallo?”, l'agente prova diverse frasi nominali, le invia a SAM 3 e verifica quali maschere hanno senso. Continua a perfezionare finché non trova l'oggetto giusto.

Anche senza essere addestrato su speciali set di dati di ragionamento, SAM 3 Agent offre buone prestazioni su benchmark progettati per query testuali complesse, come ReasonSeg e OmniLabel. Ciò dimostra che SAM 3 può supportare sistemi che richiedono sia la comprensione del linguaggio che la segmentazione visiva raffinata.

Link to this sectionApplicazioni scientifiche e di conservazione di SAM 3#

È interessante notare che SAM 3 è già utilizzato in contesti di ricerca in cui etichette visive dettagliate sono importanti. Meta ha collaborato con Conservation X Labs e Osa Conservation per creare SA-FARI, un set di dati pubblico per il monitoraggio della fauna selvatica con oltre 10.000 video di fototrappole.

Ogni animale in ogni fotogramma è etichettato con riquadri e maschere di segmentazione, un'operazione che richiederebbe molto tempo per essere annotata a mano. Allo stesso modo, nella ricerca oceanica, SAM 3 viene utilizzato insieme a FathomNet e MBARI per creare maschere di segmentazione delle istanze per underwater imagery e supportare nuovi benchmark di valutazione.

Tali set di dati aiutano gli scienziati ad analizzare i filmati video in modo più efficiente e a studiare animali e habitat che di solito sono difficili da tracciare su larga scala. I ricercatori possono anche utilizzare queste risorse per creare i propri modelli per l'identificazione delle specie, l'analisi del comportamento e il monitoraggio ecologico automatizzato.

Link to this sectionCome Meta sta implementando SAM 3 nei suoi prodotti#

Oltre agli usi nella ricerca, SAM 3 alimenta nuove funzionalità e casi d'uso nei prodotti consumer di Meta. Ecco un'occhiata ad alcuni dei modi in cui è già integrato:

  • Modifiche Instagram: I creator possono applicare effetti a una persona o a un oggetto specifico in un video senza dover lavorare manualmente fotogramma per fotogramma.
  • App Meta AI e meta.ai sul web: SAM 3 supporta nuovi strumenti per modificare, migliorare e remixare immagini e video.
  • “Visualizza nella stanza” di Facebook Marketplace: SAM 3 collabora con SAM 3D per consentire alle persone di visualizzare in anteprima mobili o decorazioni nelle loro case utilizzando una singola foto.
  • Aria Gen 2 research glasses: Il Segment Anything Model 3 aiuta a segmentare e tracciare mani e oggetti da una prospettiva in prima persona, supportando la ricerca su AR (Realtà Aumentata), robotica e AI contestuale.

Link to this sectionPunti chiave#

SAM 3 è un entusiasmante passo avanti per la segmentazione. Introduce la segmentazione dei concetti, prompt testuali a vocabolario aperto e un tracciamento migliorato. Con prestazioni notevolmente più solide sia nelle immagini che nei video, e l'aggiunta di SAM 3D, la suite di modelli apre nuove possibilità per la Vision AI, strumenti creativi, ricerca scientifica e prodotti del mondo reale.

Unisciti alla nostra community ed esplora il nostro repository GitHub per scoprire di più sull'AI. Se vuoi costruire il tuo progetto di Vision AI, dai un'occhiata alle nostre opzioni di licenza. Esplora di più su applicazioni come AI in healthcare e Vision AI in retail visitando le nostre pagine sulle soluzioni.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning