Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Explorando o SAM 3: O novo Segment Anything Model da Meta AI

Descubra como o SAM 3, o novo Segment Anything Model da Meta AI, facilita a detecção, segmentação e rastreamento de objetos em imagens e vídeos do mundo real.

ABAbirami Vina
5 min read
Segment Anything Model SAM 3 da Meta AI

Em 19 de novembro de 2025, a Meta AI lançou o Segment Anything Model 3, também conhecido como SAM 3. Esta versão mais recente do Segment Anything Model introduz novas formas de detectar, segmentar e rastrear objetos em imagens e vídeos do mundo real usando prompts de texto, prompts visuais e exemplos de imagem.

O modelo SAM 3 baseia-se no SAM e no SAM 2 e traz novos avanços e recursos como segmentação de conceitos, detecção de vocabulário aberto e rastreamento de vídeo em tempo real. Ele consegue compreender frases nominais curtas, seguir objetos entre quadros e identificar conceitos refinados ou raros que modelos anteriores não conseguiam lidar com a mesma consistência.

Como parte do lançamento do SAM 3, a Meta também apresentou o SAM 3D. Esta suíte de modelos de última geração reconstrói objetos, cenas e corpos humanos inteiros a partir de uma única imagem e expande o ecossistema Segment Anything para a compreensão 3D. Estas adições abrem novas aplicações em computer vision, robótica, edição de mídia e fluxos de trabalho criativos.

Neste artigo, vamos explorar o que é o SAM 3, o que o diferencia do SAM 2, como o modelo funciona e as suas aplicações no mundo real. Vamos começar!

Link to this sectionO que é o SAM 3? Uma análise do Segment Anything Model 3 da Meta#

O SAM 3 é um computer vision model de última geração que pode identificar, separar e rastrear objetos em imagens e vídeos com base em instruções simples. Em vez de depender de uma lista fixa de rótulos, o SAM 3 compreende linguagem natural e pistas visuais, tornando fácil dizer ao modelo o que desejas encontrar.

Por exemplo, com o SAM 3, podes escrever uma frase curta como “autocarro escolar amarelo” ou “gato às riscas”, clicar num objeto ou destacar um exemplo numa imagem. O modelo detectará então todos os objetos correspondentes e gerará máscaras de segmentação limpas (um contorno visual que mostra exatamente quais pixels pertencem a um objeto). O SAM 3 também pode seguir esses objetos entre quadros de vídeo, mantendo-os consistentes à medida que se movem.

Link to this sectionO SAM 3D permite a reconstrução 3D a partir de uma única imagem#

Outra parte empolgante do anúncio da Meta AI é o SAM 3D, que estende o projeto Segment Anything para a 3D understanding. O SAM 3D pode pegar numa imagem 2D única e reconstruir a forma, pose ou estrutura de um objeto ou de um corpo humano em três dimensões. Por outras palavras, o modelo consegue estimar como algo ocupa o espaço mesmo quando apenas um ponto de vista está disponível.

O SAM 3D foi lançado como dois modelos diferentes: SAM 3D Objects, que reconstrói itens do dia a dia com geometria e textura, e SAM 3D Body, que estima a forma e pose do corpo humano a partir de uma única imagem. Ambos os modelos usam a saída de segmentação do SAM 3 e, em seguida, geram uma representação 3D que se alinha com a aparência e posição do objeto na foto original.

Um exemplo de uso do SAM 3D

Fig 1. Um exemplo do uso do SAM 3D. (Fonte: Criado usando o playground do Segment Anything da Meta AI)

Link to this sectionSAM 3: Novos recursos para unificar detecção, segmentação e rastreamento#

Aqui estão algumas das principais atualizações que o SAM 3 introduz para reunir detecção, segmentação e rastreamento num único modelo unificado:

  • Tarefas de segmentação de conceitos: No SAM e no SAM 2, a segmentação de objetos dependia de prompts visuais como cliques ou caixas. O SAM 3 adiciona a capacidade de segmentar objetos com base numa frase curta de texto ou num recorte de exemplo da imagem. Isso significa que o modelo pode identificar todas as instâncias correspondentes sem exigir um clique para cada uma.
  • Prompts de texto de vocabulário aberto: Ao contrário das versões anteriores, o SAM 3 pode interpretar frases curtas em linguagem natural. Isso elimina a necessidade de uma lista fixa de rótulos e torna possível que o modelo trabalhe com conceitos mais específicos ou menos comuns.
  • Um modelo para detecção, segmentação e rastreamento: O SAM 3 unifica detecção, segmentação e rastreamento num só modelo, eliminando a necessidade de sistemas separados para encontrar objetos, gerar máscaras de segmentação e segui-los através de quadros de vídeo. Isso cria um fluxo de trabalho mais consistente e simplificado tanto para imagens quanto para vídeo, e embora o SAM 2 também oferecesse algumas capacidades de rastreamento, o SAM 3 oferece um desempenho significativamente mais forte e confiável.
  • Resultados mais estáveis em cenas complexas: Como o SAM 3 pode combinar texto, imagens de exemplo e prompts visuais, ele pode lidar com cenas desordenadas ou repetitivas de forma mais confiável do que as versões anteriores que dependiam apenas de cliques visuais.

Segmentação de conceito do SAM 3 com exemplos de texto ou imagem

Fig 2. O SAM 3 introduz a segmentação de conceitos com exemplos de texto ou imagem. (Fonte)

Link to this sectionComparando SAM 3 vs SAM 2 vs SAM 1#

Digamos que estejas a assistir a um vídeo de safari com muitos animais diferentes e queiras detectar e segmentar apenas os elefantes. Como seria esta tarefa nas diferentes versões do SAM?

Com o SAM, terias de clicar manualmente em cada elefante em cada quadro para gerar uma máscara de segmentação. Não existe rastreamento, portanto, cada novo quadro requer novos cliques.

Com o SAM 2, poderias clicar uma vez num elefante, obter a sua máscara, e o modelo rastrearia esse mesmo elefante ao longo do vídeo. No entanto, ainda precisarias de fornecer cliques separados se quisesses segmentar vários elefantes (objetos específicos), já que o SAM 2 não compreende categorias como “elefante” por conta própria.

Com o SAM 3, o fluxo de trabalho torna-se muito mais simples. Podes escrever “elefante” ou desenhar uma caixa delimitadora em torno de um único elefante para fornecer um exemplo, e o modelo encontrará automaticamente todos os elefantes no vídeo, segmentá-los-á e rastreá-los-á de forma consistente entre quadros. Ele ainda suporta os prompts de clique e caixa usados em versões anteriores, mas agora também pode responder a prompts de texto e imagens exemplares, algo que o SAM e o SAM 2 não conseguiam fazer.

Link to this sectionComo funciona o modelo SAM 3#

A seguir, vamos analisar mais de perto como funciona o modelo SAM 3 e como ele foi treinado.

Link to this sectionUma visão geral da arquitetura do modelo SAM 3#

O SAM 3 reúne vários componentes para suportar prompts de conceito e prompts visuais num único sistema. No seu núcleo, o modelo utiliza o Meta Perception Encoder, que é o codificador unificado de imagem-texto de código aberto da Meta.

Este codificador pode processar tanto imagens como frases nominais curtas. Em termos simples, isto permite que o SAM 3 ligue a linguagem e as características visuais de forma mais eficaz do que as versões anteriores do Segment Anything Model.

Acima deste codificador, o SAM 3 inclui um detector baseado na família de modelos transformer DETR. Este detector identifica objetos na imagem e ajuda o sistema a determinar quais objetos correspondem ao prompt do utilizador.

Especificamente para segmentação de vídeo, o SAM 3 utiliza um componente de rastreamento que se baseia no banco de memória e no codificador de memória do SAM 2. Isto permite que o modelo retenha informações sobre os objetos entre os quadros para que possa reidentificá-los e rastreá-los ao longo do tempo.

Como funciona a segmentação de qualquer coisa com conceitos

Fig 3. Como funciona a segmentação de qualquer coisa com conceitos (Fonte: scontent)

Link to this sectionO motor de dados escalável por trás do Segment Anything Model 3#

Para treinar o SAM 3, a Meta precisava de muito mais dados anotados do que os que existem atualmente na internet. Máscaras de segmentação e rótulos de texto de alta qualidade são difíceis de criar em grande escala, e contornar totalmente todas as instâncias de um conceito em imagens e vídeos é lento e dispendioso.

Para resolver isto, a Meta construiu um novo motor de dados que combina o próprio SAM 3, modelos de IA adicionais e anotadores humanos a trabalhar em conjunto. O fluxo de trabalho começa com um pipeline de sistemas de IA, incluindo o SAM 3 e um modelo de legendagem baseado em Llama.

Estes sistemas digitalizam grandes coleções de imagens e vídeos, geram legendas, convertem essas legendas em rótulos de texto e produzem candidatos a máscaras de segmentação iniciais. Anotadores humanos e de IA reveem então estes candidatos.

Os anotadores de IA, treinados para igualar ou até superar a precisão humana em tarefas como verificar a qualidade da máscara e verificar a cobertura do conceito, filtram os casos simples. Os humanos intervêm apenas para exemplos mais desafiantes onde o modelo ainda pode ter dificuldades.

Motor de dados do SAM 3

Fig 4. Motor de dados do SAM 3 (Fonte)

Esta abordagem dá à Meta um grande impulso na velocidade de anotação. Ao deixar que os anotadores de IA tratem dos casos fáceis, o pipeline torna-se cerca de cinco vezes mais rápido em prompts negativos e 36% mais rápido em prompts positivos em domínios refinados.

Esta eficiência tornou possível escalar o conjunto de dados para mais de quatro milhões de conceitos únicos. O ciclo constante de propostas de IA, correções humanas e previsões de modelo atualizadas também melhora a qualidade dos rótulos ao longo do tempo e ajuda o SAM 3 a aprender um conjunto muito mais amplo de conceitos baseados em visão e texto.

Link to this sectionMelhorias de desempenho do SAM 3#

Em relação ao desempenho, o SAM 3 oferece uma melhoria clara em relação aos modelos anteriores. No novo benchmark SA-Co da Meta, que avalia a detecção e segmentação de conceitos de vocabulário aberto, o SAM 3 atinge aproximadamente o dobro do desempenho de sistemas anteriores, tanto em imagens quanto em vídeo.

Ele também iguala ou supera o SAM 2 em tarefas visuais interativas, como point-to-mask e mask-to-masklet. A Meta relata ganhos adicionais em avaliações mais difíceis, como LVIS zero-shot (onde os modelos devem reconhecer categorias raras sem exemplos de treino) e contagem de objetos (medindo se todas as instâncias de um objeto são detectadas), destacando uma generalização mais forte entre domínios.

Além destas melhorias de precisão, o SAM 3 é eficiente, processando uma imagem com mais de 100 objetos detectados em cerca de 30 milissegundos num GPU H200 e mantendo velocidades quase em tempo real ao rastrear múltiplos objetos em vídeo.

Link to this sectionAplicações do Segment Anything Model 3#

Agora que temos uma melhor compreensão do SAM 3, vamos percorrer como ele está a ser usado em aplicações reais, desde raciocínio guiado por texto avançado até à investigação científica e aos próprios produtos da Meta.

Link to this sectionManipulação de consultas de texto complexas usando o SAM 3 Agent#

O SAM 3 também pode ser usado como uma ferramenta dentro de um modelo de linguagem multimodal maior, que a Meta chama de SAM 3 Agent. Em vez de dar ao SAM 3 uma frase curta como “elefante”, o agente pode dividir uma pergunta mais complicada em prompts menores que o SAM 3 compreende.

Por exemplo, se o utilizador perguntar, “Que objeto na imagem é usado para controlar e guiar um cavalo?”, o agente tenta diferentes frases nominais, envia-as para o SAM 3 e verifica quais máscaras fazem sentido. Ele continua a refinar até encontrar o objeto certo.

Mesmo sem ser treinado em conjuntos de dados de raciocínio especial, o SAM 3 Agent tem um bom desempenho em benchmarks concebidos para consultas de texto complexas, como ReasonSeg e OmniLabel. Isto mostra que o SAM 3 pode suportar sistemas que necessitam tanto de compreensão de linguagem quanto de segmentação visual refinada.

Link to this sectionAplicações científicas e de conservação do SAM 3#

Curiosamente, o SAM 3 já está a ser usado em ambientes de investigação onde rótulos visuais detalhados são importantes. A Meta trabalhou com a Conservation X Labs e a Osa Conservation para construir o SA-FARI, um conjunto de dados público de monitorização da vida selvagem com mais de 10.000 vídeos de armadilhas fotográficas.

Cada animal em cada quadro é rotulado com caixas e máscaras de segmentação, algo que seria extremamente moroso de anotar manualmente. Da mesma forma, na investigação oceânica, o SAM 3 está a ser usado juntamente com o FathomNet e o MBARI para criar máscaras de segmentação de instância para underwater imagery e apoiar novos benchmarks de avaliação.

Esses conjuntos de dados ajudam os cientistas a analisar imagens de vídeo de forma mais eficiente e a estudar animais e habitats que são geralmente difíceis de rastrear em escala. Os investigadores também podem usar estes recursos para construir os seus próprios modelos para identificação de espécies, análise de comportamento e monitorização ecológica automatizada.

Link to this sectionComo a Meta está a implementar o SAM 3 nos seus produtos#

Além das suas utilizações em investigação, o SAM 3 também está a alimentar novos recursos e casos de uso nos produtos de consumo da Meta. Aqui fica um vislumbre de algumas das formas como já está a ser integrado:

  • Edições no Instagram: Os criadores podem aplicar efeitos a uma pessoa ou objeto específico num vídeo sem fazer trabalho manual quadro a quadro.
  • Aplicação Meta AI e meta.ai na web: O SAM 3 suporta novas ferramentas para modificar, melhorar e remisturar imagens e vídeos.
  • “Ver no espaço” do Facebook Marketplace: O SAM 3 trabalha com o SAM 3D para permitir que as pessoas visualizem mobiliário ou decoração nas suas casas usando uma única foto.
  • Aria Gen 2 óculos de investigação: O Segment Anything Model 3 ajuda a segmentar e rastrear mãos e objetos a partir de uma visão na primeira pessoa, apoiando a RA (Realidade Aumentada), robótica e investigação de IA contextual.

Link to this sectionPrincipais pontos#

O SAM 3 é um passo empolgante para a segmentação. Introduz a segmentação de conceitos, prompts de texto de vocabulário aberto e rastreamento melhorado. Com um desempenho visivelmente mais forte tanto em imagens quanto em vídeo, e a adição do SAM 3D, a suíte de modelos abre novas possibilidades para IA de visão, ferramentas criativas, investigação científica e produtos do mundo real.

Junta-te à nossa comunidade e explora o nosso repositório no GitHub para descobrir mais sobre IA. Se pretendes construir o teu próprio projeto de IA de visão, consulta as nossas opções de licenciamento. Explora mais sobre aplicações como IA nos cuidados de saúde e IA de visão no retalho visitando as nossas páginas de soluções.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática