Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Explorar o SAM 3: o novo modelo Segment Anything da Meta AI

Abirami Vina

Leitura de 5 minutos

21 de novembro de 2025

Descubra como o SAM 3, o novo modelo Segment Anything Model da Meta AI, facilita a deteção, segmentação e seguimento de objectos em imagens e vídeos do mundo real.

Em 19 de novembro de 2025, a Meta AI lançou o Segment Anything Model 3, também conhecido como SAM 3. Esta versão mais recente do Segment Anything Model apresenta novas formas de detetar, segmentar e rastrear objectos em imagens e vídeos do mundo real, utilizando avisos de texto, avisos visuais e exemplos de imagens.

O modelo SAM 3 baseia-se no SAM e no SAM 2 e traz novos avanços e funcionalidades como a segmentação de conceitos, a deteção de vocabulário aberto e o seguimento de vídeo em tempo real. Consegue compreender sintagmas nominais curtos, seguir objectos através de fotogramas e identificar conceitos finos ou raros que os modelos anteriores não conseguiam tratar de forma tão consistente.

Como parte da versão SAM 3, a Meta também introduziu o SAM 3D. Este conjunto de modelos da próxima geração reconstrói objectos, cenas e corpos humanos completos a partir de uma única imagem e expande o ecossistema Segment Anything para a compreensão 3D. Estas adições abrem novas aplicações em visão computacional, robótica, edição multimédia e fluxos de trabalho criativos.

Neste artigo, vamos explorar o que é o SAM 3, o que o distingue do SAM 2, como funciona o modelo e as suas aplicações no mundo real. Vamos começar!

O que é o SAM 3? Um olhar sobre o Segmento de Qualquer Coisa Modelo 3 do Meta

O SAM 3 é um modelo de visão por computador topo de gama que consegue identificar, separar e seguir objectos em imagens e vídeos com base em instruções simples. Em vez de se basear numa lista fixa de etiquetas, o SAM 3 compreende a linguagem natural e as pistas visuais, tornando mais fácil dizer ao modelo o que pretende encontrar.

Por exemplo, com o SAM 3, pode escrever uma frase curta como "autocarro escolar amarelo" ou "um gato às riscas", clicar num objeto ou realçar um exemplo numa imagem. O modelo irá então detetar todos os objectos correspondentes e gerar máscaras de segmentação limpas (um contorno visual que mostra exatamente quais os pixels que pertencem a um objeto). O SAM 3 também pode seguir esses objectos através de fotogramas de vídeo, mantendo-os consistentes à medida que se movem.

SAM 3D permite a reconstrução 3D de uma só imagem

Outra parte interessante do anúncio da Meta AI é o SAM 3D, que alarga o projeto Segment Anything à compreensão 3D. O SAM 3D pode pegar numa única imagem 2D e reconstruir a forma, a pose ou a estrutura de um objeto ou de um corpo humano em três dimensões. Por outras palavras, o modelo pode estimar a forma como algo ocupa o espaço, mesmo quando só está disponível um ponto de vista.

O SAM 3D foi lançado como dois modelos diferentes: SAM 3D Objects, que reconstrói objectos do quotidiano com geometria e textura, e SAM 3D Body, que estima a forma e a pose do corpo humano a partir de uma única imagem. Ambos os modelos utilizam o resultado da segmentação do SAM 3 e geram uma representação 3D que se alinha com a aparência e a posição do objeto na fotografia original.

Fig. 1. Um exemplo de utilização do SAM 3D. (Fonte: Criado utilizando o segmento qualquer coisa do parque infantil da Meta AI)

SAM 3: Novas funcionalidades para unificar a deteção, a segmentação e o seguimento

Eis algumas das principais actualizações que o SAM 3 introduz para reunir a deteção, a segmentação e o seguimento num modelo unificado:

  • Tarefas de segmentação de conceitos: No SAM e no SAM 2, a segmentação de objectos dependia de avisos visuais como cliques ou caixas. O SAM 3 acrescenta a capacidade de segmentar objectos com base numa frase de texto curto ou num exemplo de corte da imagem. Isto significa que o modelo pode identificar todas as instâncias correspondentes sem necessitar de um clique para cada uma delas.
  • Pedidos de texto de vocabulário aberto: Ao contrário das versões anteriores, o SAM 3 pode interpretar frases curtas em linguagem natural. Isto elimina a necessidade de uma lista fixa de etiquetas e permite que o modelo trabalhe com conceitos mais específicos ou menos comuns.
  • Um modelo para deteção, segmentação e rastreamento: O SAM 3 unifica a deteção, a segmentação e o seguimento num único modelo, eliminando a necessidade de sistemas separados para encontrar objectos, gerar máscaras de segmentação e segui-los através de fotogramas de vídeo. Isto cria um fluxo de trabalho mais consistente e simplificado para imagens e vídeos e, embora o SAM 2 também oferecesse algumas capacidades de seguimento, o SAM 3 proporciona um desempenho significativamente mais forte e fiável.
  • Resultados mais estáveis em cenas complexas: Uma vez que o SAM 3 pode combinar texto, imagens de exemplo e avisos visuais, pode lidar com cenas desordenadas ou repetitivas de forma mais fiável do que as versões anteriores que dependiam apenas de cliques visuais.
Fig. 2. SAM 3 introduz a segmentação de conceitos com exemplos de texto ou imagem.(Fonte)

Comparação entre SAM 3 e SAM 2 e SAM 1

Digamos que está a ver um vídeo de um safari com muitos animais diferentes e quer detetar e segmentar apenas os elefantes. Como seria esta tarefa nas diferentes versões do SAM?

Com o SAM, teria de clicar manualmente em cada elefante em cada fotograma para gerar uma máscara de segmentação. Não existe rastreio, pelo que cada novo fotograma requer novos cliques.

Com o SAM 2, podia clicar uma vez num elefante, obter a sua máscara e o modelo seguiria esse mesmo elefante ao longo do vídeo. No entanto, continuaria a ser necessário dar cliques separados se quisesse segmentar vários elefantes (objectos específicos), uma vez que o SAM 2 não compreende categorias como "elefante" por si só.

Com o SAM 3, o fluxo de trabalho torna-se muito mais simples. Pode escrever "elefante" ou desenhar uma caixa delimitadora à volta de um único elefante para dar um exemplo, e o modelo irá encontrar automaticamente todos os elefantes no vídeo, segmentá-los e segui-los de forma consistente ao longo dos fotogramas. Continua a suportar os avisos de clique e caixa utilizados nas versões anteriores, mas agora também pode responder a avisos de texto e imagens de exemplo, algo que o SAM e o SAM 2 não conseguiam fazer.

Como funciona o modelo SAM 3

De seguida, vamos analisar mais detalhadamente o funcionamento do modelo SAM 3 e a forma como foi treinado.

Uma visão geral da arquitetura do modelo SAM 3

O SAM 3 reúne vários componentes para suportar avisos conceptuais e avisos visuais num único sistema. No seu núcleo, o modelo utiliza o codificador de perceção Meta, que é o codificador unificado de texto-imagem de código aberto da Meta. 

Este codificador pode processar tanto imagens como frases curtas de substantivos. Em termos simples, isto permite ao SAM 3 associar as caraterísticas linguísticas e visuais de forma mais eficaz do que as versões anteriores do Segment Anything Model.

Para além deste codificador, o SAM 3 inclui um detetor que se baseia na família DETR de modelos de transformadores. Este detetor identifica os objectos na imagem e ajuda o sistema a determinar quais os objectos que correspondem ao pedido do utilizador. 

Especificamente, para a segmentação de vídeo, o SAM 3 utiliza um componente de seguimento que se baseia no banco de memória e no codificador de memória do SAM 2. Isto permite que o modelo retenha informações sobre objectos ao longo dos fotogramas para que possa voltar a identificá-los e segui-los ao longo do tempo.

Fig. 3. Como funciona a segmentação de qualquer coisa com conceitos(Fonte)

O motor de dados escalável por detrás do segmento Qualquer coisa Modelo 3

Para treinar o SAM 3, o Meta precisava de muito mais dados anotados do que os que existem atualmente na Internet. As máscaras de segmentação de alta qualidade e as etiquetas de texto são difíceis de criar em grande escala, e delinear completamente cada instância de um conceito em imagens e vídeos é lento e dispendioso. 

Para resolver este problema, a Meta criou um novo motor de dados que combina o próprio SAM 3, modelos de IA adicionais e anotadores humanos a trabalhar em conjunto. O fluxo de trabalho começa com um conjunto de sistemas de IA, incluindo o SAM 3 e um modelo de legendagem baseado em Llama

Estes sistemas analisam grandes colecções de imagens e vídeos, geram legendas, convertem essas legendas em etiquetas de texto e produzem candidatos a máscaras de segmentação precoce. Os anotadores humanos e de IA analisam depois estes candidatos. 

Os anotadores de IA, treinados para igualar ou mesmo ultrapassar a precisão humana em tarefas como a verificação da qualidade da máscara e a verificação da cobertura de conceitos, filtram os casos simples. Os humanos intervêm apenas nos exemplos mais difíceis, em que o modelo pode ainda ter dificuldades.

Fig. 4. Motor de dados SAM 3(Fonte)

Esta abordagem dá ao Meta um grande impulso na velocidade de anotação. Ao permitir que os anotadores de IA tratem de casos fáceis, o pipeline torna-se cerca de cinco vezes mais rápido em pedidos negativos e 36% mais rápido em pedidos positivos em domínios de granularidade fina. 

Esta eficiência tornou possível escalar o conjunto de dados para mais de quatro milhões de conceitos únicos. O ciclo constante de propostas de IA, correcções humanas e previsões de modelos actualizados também melhora a qualidade das etiquetas ao longo do tempo e ajuda o SAM 3 a aprender um conjunto muito mais vasto de conceitos visuais e baseados em texto.

Melhorias no desempenho do SAM 3

No que respeita ao desempenho, o SAM 3 apresenta uma clara melhoria em relação aos modelos anteriores. No novo benchmark SA-Co da Meta, que avalia a deteção e segmentação de conceitos de vocabulário aberto, o SAM 3 atinge aproximadamente o dobro do desempenho dos sistemas anteriores, tanto em imagens como em vídeo. 

Também iguala ou excede o SAM 2 em tarefas visuais interactivas, como apontar para a máscara e máscara para máscara. O Meta relata ganhos adicionais em avaliações mais difíceis, como o LVIS de disparo zero (em que os modelos têm de reconhecer categorias raras sem exemplos de treino) e a contagem de objectos (que mede se todas as instâncias de um objeto são detectadas), destacando uma maior generalização entre domínios. 

Para além destas melhorias na precisão, o SAM 3 é eficiente, processando uma imagem com mais de 100 objectos detectados em cerca de 30 milissegundos numa GPU H200 e mantendo velocidades próximas do tempo real quando rastreia vários objectos em vídeo.

Aplicações do segmento Qualquer coisa Modelo 3

Agora que temos uma melhor compreensão do SAM 3, vamos ver como está a ser utilizado em aplicações reais, desde o raciocínio avançado guiado por texto até à investigação científica e aos próprios produtos da Meta.

Tratamento de consultas de texto complexas com o agente SAM 3

O SAM 3 também pode ser utilizado como uma ferramenta dentro de um modelo de linguagem multimodal maior, a que o Meta chama Agente SAM 3. Em vez de dar ao SAM 3 uma frase curta como "elefante", o agente pode dividir uma pergunta mais complicada em pedidos mais pequenos que o SAM 3 compreenda. 

Por exemplo, se o utilizador perguntar: "Que objeto na imagem é utilizado para controlar e guiar um cavalo?", o agente experimenta diferentes frases nominais, envia-as para o SAM 3 e verifica quais as máscaras que fazem sentido. Continua a aperfeiçoar até encontrar o objeto certo.

Mesmo sem ter sido treinado em conjuntos de dados especiais de raciocínio, o agente SAM 3 tem um bom desempenho em testes de referência concebidos para consultas de texto complexas, como o ReasonSeg e o OmniLabel. Isto mostra que o SAM 3 pode suportar sistemas que necessitem tanto de compreensão linguística como de segmentação visual fina.

Aplicações científicas e de conservação da SAM 3

Curiosamente, o SAM 3 já está a ser utilizado em ambientes de investigação onde as etiquetas visuais detalhadas são importantes. A Meta trabalhou com a Conservation X Labs e a Osa Conservation para criar o SA-FARI, um conjunto de dados público de monitorização da vida selvagem com mais de 10.000 vídeos de armadilhas fotográficas. 

Cada animal em cada fotograma é etiquetado com caixas e máscaras de segmentação, algo que seria extremamente moroso anotar à mão. Do mesmo modo, na investigação oceânica, o SAM 3 está a ser utilizado em conjunto com o FathomNet e o MBARI para criar máscaras de segmentação de instâncias para imagens subaquáticas e apoiar novos parâmetros de avaliação. 

Estes conjuntos de dados ajudam os cientistas a analisar as imagens de vídeo de forma mais eficiente e a estudar animais e habitats que são normalmente difíceis de seguir à escala. Os investigadores podem também utilizar estes recursos para criar os seus próprios modelos de identificação de espécies, análise de comportamentos e monitorização ecológica automatizada.

Como a Meta está a implementar o SAM 3 nos seus produtos

Para além das suas utilizações de investigação, o SAM 3 está também a potenciar novas funcionalidades e casos de utilização nos produtos de consumo da Meta. Aqui está um vislumbre de algumas das formas como já está a ser integrado:

  • Edições do Instagram: Os criadores podem aplicar efeitos a uma pessoa ou objeto específico num vídeo sem fazer um trabalho manual fotograma a fotograma.
  • Aplicação Meta AI e meta.ai na Web: O SAM 3 suporta novas ferramentas para modificar, melhorar e remisturar imagens e vídeos.
  • "Ver no quarto" do Facebook Marketplace: O SAM 3 funciona com o SAM 3D para permitir que as pessoas visualizem mobiliário ou decoração nas suas casas utilizando uma única fotografia.
  • Aria Gen 2 óculos de investigação: O Segment Anything Model 3 ajuda a segmentar e a seguir as mãos e os objectos a partir de uma visão na primeira pessoa, apoiando a investigação em RA (Realidade Aumentada), robótica e IA contextual.

Principais conclusões

O SAM 3 é um passo em frente entusiasmante para a segmentação. Introduz a segmentação de conceitos, pedidos de texto de vocabulário aberto e rastreio melhorado. Com um desempenho visivelmente mais forte em imagens e vídeos, e com a adição do SAM 3D, o conjunto de modelos abre novas possibilidades para a IA de visão, ferramentas criativas, investigação científica e produtos do mundo real. 

Junte-se à nossa comunidade e explore o nosso repositório GitHub para descobrir mais sobre IA. Se pretende criar o seu próprio projeto de IA de visão, consulte as nossas opções de licenciamento. Explore mais sobre aplicações como a IA nos cuidados de saúde e a IA de visão no retalho visitando as nossas páginas de soluções.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente