O novo modelo de qualquer segmento da Meta AI: Explorar o SAM 3

Em 19 de novembro de 2025, a Meta AI lançou o Segment Anything Model 3, também conhecido como SAM 3. Esta versão mais recente do Segment Anything Model apresenta novas formas de detetar, segmentar e rastrear objectos em imagens e vídeos do mundo real, utilizando avisos de texto, avisos visuais e exemplos de imagens.

O modelo SAM 3 baseia-se no SAM e no SAM 2 e traz novos avanços e funcionalidades como a segmentação de conceitos, a deteção de vocabulário aberto e o seguimento de vídeo em tempo real. Consegue compreender sintagmas nominais curtos, seguir objectos através de fotogramas e identificar conceitos finos ou raros que os modelos anteriores não conseguiam tratar de forma tão consistente.

Como parte da versão SAM 3, a Meta também introduziu o SAM 3D. Este conjunto de modelos da próxima geração reconstrói objectos, cenas e corpos humanos completos a partir de uma única imagem e expande o ecossistema Segment Anything para a compreensão 3D. Estas adições abrem novas aplicações em visão computacional, robótica, edição multimédia e fluxos de trabalho criativos.

Neste artigo, vamos explorar o que é o SAM 3, o que o distingue do SAM 2, como funciona o modelo e as suas aplicações no mundo real. Vamos começar!

O que é o SAM 3? Um olhar sobre o Segmento de Qualquer Coisa Modelo 3 do Meta

O SAM 3 é um modelo de visão por computador topo de gama que consegue identificar, separar e seguir objectos em imagens e vídeos com base em instruções simples. Em vez de se basear numa lista fixa de etiquetas, o SAM 3 compreende a linguagem natural e as pistas visuais, tornando mais fácil dizer ao modelo o que pretende encontrar.

Por exemplo, com o SAM 3, pode escrever uma frase curta como "autocarro escolar amarelo" ou "um gato às riscas", clicar num objeto ou realçar um exemplo numa imagem. O modelo irá então detetar todos os objectos correspondentes e gerar máscaras de segmentação limpas (um contorno visual que mostra exatamente quais os pixels que pertencem a um objeto). O SAM 3 também pode seguir esses objectos através de fotogramas de vídeo, mantendo-os consistentes à medida que se movem.

SAM 3D permite a reconstrução 3D de uma só imagem

Outra parte interessante do anúncio da Meta AI é o SAM 3D, que alarga o projeto Segment Anything à compreensão 3D. O SAM 3D pode pegar numa única imagem 2D e reconstruir a forma, a pose ou a estrutura de um objeto ou de um corpo humano em três dimensões. Por outras palavras, o modelo pode estimar a forma como algo ocupa o espaço, mesmo quando só está disponível um ponto de vista.

O SAM 3D foi lançado como dois modelos diferentes: SAM 3D Objects, que reconstrói objectos do quotidiano com geometria e textura, e SAM 3D Body, que estima a forma e a pose do corpo humano a partir de uma única imagem. Ambos os modelos utilizam o resultado da segmentação do SAM 3 e geram uma representação 3D que se alinha com a aparência e a posição do objeto na fotografia original.

Fig. 1. Um exemplo de utilização do SAM 3D. (Fonte: Criado utilizando o segmento qualquer coisa do parque infantil da Meta AI)

‍

SAM 3: Novas funcionalidades para unificar a deteção, a segmentação e o seguimento

Eis algumas das principais actualizações que o SAM 3 introduz para reunir a deteção, a segmentação e o seguimento num modelo unificado:

Tarefas de segmentação de conceitos: No SAM e no SAM 2, a segmentação de objectos dependia de avisos visuais como cliques ou caixas. O SAM 3 acrescenta a capacidade de segmentar objectos com base numa frase de texto curto ou num exemplo de corte da imagem. Isto significa que o modelo pode identificar todas as instâncias correspondentes sem necessitar de um clique para cada uma delas.
‍
Pedidos de texto de vocabulário aberto: Ao contrário das versões anteriores, o SAM 3 pode interpretar frases curtas em linguagem natural. Isto elimina a necessidade de uma lista fixa de etiquetas e permite que o modelo trabalhe com conceitos mais específicos ou menos comuns.
‍
Um modelo para deteção, segmentação e rastreamento: O SAM 3 unifica a deteção, a segmentação e o seguimento num único modelo, eliminando a necessidade de sistemas separados para encontrar objectos, gerar máscaras de segmentação e segui-los através de fotogramas de vídeo. Isto cria um fluxo de trabalho mais consistente e simplificado para imagens e vídeos e, embora o SAM 2 também oferecesse algumas capacidades de seguimento, o SAM 3 proporciona um desempenho significativamente mais forte e fiável.
‍
Resultados mais estáveis em cenas complexas: Uma vez que o SAM 3 pode combinar texto, imagens de exemplo e avisos visuais, pode lidar com cenas desordenadas ou repetitivas de forma mais fiável do que as versões anteriores que dependiam apenas de cliques visuais.

Fig. 2. SAM 3 introduz a segmentação de conceitos com exemplos de texto ou imagem.(Fonte)

‍

Comparação entre SAM 3 e SAM 2 e SAM 1

Digamos que está a ver um vídeo de um safari com muitos animais diferentes e quer detetar e segmentar apenas os elefantes. Como seria esta tarefa nas diferentes versões do SAM?

Com o SAM, teria de clicar manualmente em cada elefante em cada fotograma para gerar uma máscara de segmentação. Não existe rastreio, pelo que cada novo fotograma requer novos cliques.

Com o SAM 2, podia clicar uma vez num elefante, obter a sua máscara e o modelo seguiria esse mesmo elefante ao longo do vídeo. No entanto, continuaria a ser necessário dar cliques separados se quisesse segmentar vários elefantes (objectos específicos), uma vez que o SAM 2 não compreende categorias como "elefante" por si só.

Com o SAM 3, o fluxo de trabalho torna-se muito mais simples. Pode escrever "elefante" ou desenhar uma caixa delimitadora à volta de um único elefante para dar um exemplo, e o modelo irá encontrar automaticamente todos os elefantes no vídeo, segmentá-los e segui-los de forma consistente ao longo dos fotogramas. Continua a suportar os avisos de clique e caixa utilizados nas versões anteriores, mas agora também pode responder a avisos de texto e imagens de exemplo, algo que o SAM e o SAM 2 não conseguiam fazer.

Como funciona o modelo SAM 3

De seguida, vamos analisar mais detalhadamente o funcionamento do modelo SAM 3 e a forma como foi treinado.

Uma visão geral da arquitetura do modelo SAM 3

O SAM 3 reúne vários componentes para suportar avisos conceptuais e avisos visuais num único sistema. No seu núcleo, o modelo utiliza o codificador de perceção Meta, que é o codificador unificado de texto-imagem de código aberto da Meta.

Este codificador pode processar tanto imagens como frases curtas de substantivos. Em termos simples, isto permite ao SAM 3 associar as caraterísticas linguísticas e visuais de forma mais eficaz do que as versões anteriores do Segment Anything Model.

Para além deste codificador, o SAM 3 inclui um detetor que se baseia na família DETR de modelos de transformadores. Este detetor identifica os objectos na imagem e ajuda o sistema a determinar quais os objectos que correspondem ao pedido do utilizador.

Especificamente, para a segmentação de vídeo, o SAM 3 utiliza um componente de seguimento que se baseia no banco de memória e no codificador de memória do SAM 2. Isto permite que o modelo retenha informações sobre objectos ao longo dos fotogramas para que possa voltar a identificá-los e segui-los ao longo do tempo.

Fig. 3. Como funciona a segmentação de qualquer coisa com conceitos(Fonte)

‍

O motor de dados escalável por detrás do segmento Qualquer coisa Modelo 3

Para treinar o SAM 3, o Meta precisava de muito mais dados anotados do que os que existem atualmente na Internet. As máscaras de segmentação de alta qualidade e as etiquetas de texto são difíceis de criar em grande escala, e delinear completamente cada instância de um conceito em imagens e vídeos é lento e dispendioso.

Para resolver este problema, a Meta criou um novo motor de dados que combina o próprio SAM 3, modelos de IA adicionais e anotadores humanos a trabalhar em conjunto. O fluxo de trabalho começa com um conjunto de sistemas de IA, incluindo o SAM 3 e um modelo de legendagem baseado em Llama.

Estes sistemas analisam grandes colecções de imagens e vídeos, geram legendas, convertem essas legendas em etiquetas de texto e produzem candidatos a máscaras de segmentação precoce. Os anotadores humanos e de IA analisam depois estes candidatos.

Os anotadores de IA, treinados para igualar ou mesmo ultrapassar a precisão humana em tarefas como a verificação da qualidade da máscara e a verificação da cobertura de conceitos, filtram os casos simples. Os humanos intervêm apenas nos exemplos mais difíceis, em que o modelo pode ainda ter dificuldades.

‍

Esta abordagem dá ao Meta um grande impulso na velocidade de anotação. Ao permitir que os anotadores de IA tratem de casos fáceis, o pipeline torna-se cerca de cinco vezes mais rápido em pedidos negativos e 36% mais rápido em pedidos positivos em domínios de granularidade fina.

Esta eficiência tornou possível escalar o conjunto de dados para mais de quatro milhões de conceitos únicos. O ciclo constante de propostas de IA, correcções humanas e previsões de modelos actualizados também melhora a qualidade das etiquetas ao longo do tempo e ajuda o SAM 3 a aprender um conjunto muito mais vasto de conceitos visuais e baseados em texto.

Melhorias no desempenho do SAM 3

No que respeita ao desempenho, o SAM 3 apresenta uma clara melhoria em relação aos modelos anteriores. No novo benchmark SA-Co da Meta, que avalia a deteção e segmentação de conceitos de vocabulário aberto, o SAM 3 atinge aproximadamente o dobro do desempenho dos sistemas anteriores, tanto em imagens como em vídeo.

Também iguala ou excede o SAM 2 em tarefas visuais interactivas, como apontar para a máscara e máscara para máscara. O Meta relata ganhos adicionais em avaliações mais difíceis, como o LVIS de disparo zero (em que os modelos têm de reconhecer categorias raras sem exemplos de treino) e a contagem de objectos (que mede se todas as instâncias de um objeto são detectadas), destacando uma maior generalização entre domínios.

Para além destas melhorias na precisão, o SAM 3 é eficiente, processando uma imagem com mais de 100 objectos detectados em cerca de 30 milissegundos numa GPU H200 e mantendo velocidades próximas do tempo real quando rastreia vários objectos em vídeo.

Aplicações do segmento Qualquer coisa Modelo 3

Agora que temos uma melhor compreensão do SAM 3, vamos ver como está a ser utilizado em aplicações reais, desde o raciocínio avançado guiado por texto até à investigação científica e aos próprios produtos da Meta.

Tratamento de consultas de texto complexas com o agente SAM 3

O SAM 3 também pode ser utilizado como uma ferramenta dentro de um modelo de linguagem multimodal maior, a que o Meta chama Agente SAM 3. Em vez de dar ao SAM 3 uma frase curta como "elefante", o agente pode dividir uma pergunta mais complicada em pedidos mais pequenos que o SAM 3 compreenda.

Por exemplo, se o utilizador perguntar: "Que objeto na imagem é utilizado para controlar e guiar um cavalo?", o agente experimenta diferentes frases nominais, envia-as para o SAM 3 e verifica quais as máscaras que fazem sentido. Continua a aperfeiçoar até encontrar o objeto certo.

Mesmo sem ter sido treinado em conjuntos de dados especiais de raciocínio, o agente SAM 3 tem um bom desempenho em testes de referência concebidos para consultas de texto complexas, como o ReasonSeg e o OmniLabel. Isto mostra que o SAM 3 pode suportar sistemas que necessitem tanto de compreensão linguística como de segmentação visual fina.

Aplicações científicas e de conservação da SAM 3

Curiosamente, o SAM 3 já está a ser utilizado em ambientes de investigação onde as etiquetas visuais detalhadas são importantes. A Meta trabalhou com a Conservation X Labs e a Osa Conservation para criar o SA-FARI, um conjunto de dados público de monitorização da vida selvagem com mais de 10.000 vídeos de armadilhas fotográficas.

Cada animal em cada fotograma é etiquetado com caixas e máscaras de segmentação, algo que seria extremamente moroso anotar à mão. Do mesmo modo, na investigação oceânica, o SAM 3 está a ser utilizado em conjunto com o FathomNet e o MBARI para criar máscaras de segmentação de instâncias para imagens subaquáticas e apoiar novos parâmetros de avaliação.

Estes conjuntos de dados ajudam os cientistas a analisar as imagens de vídeo de forma mais eficiente e a estudar animais e habitats que são normalmente difíceis de seguir à escala. Os investigadores podem também utilizar estes recursos para criar os seus próprios modelos de identificação de espécies, análise de comportamentos e monitorização ecológica automatizada.

Como a Meta está a implementar o SAM 3 nos seus produtos

Para além das suas utilizações de investigação, o SAM 3 está também a potenciar novas funcionalidades e casos de utilização nos produtos de consumo da Meta. Aqui está um vislumbre de algumas das formas como já está a ser integrado:

Edições do Instagram: Os criadores podem aplicar efeitos a uma pessoa ou objeto específico num vídeo sem fazer um trabalho manual fotograma a fotograma.
‍
Aplicação Meta AI e meta.ai na Web: O SAM 3 suporta novas ferramentas para modificar, melhorar e remisturar imagens e vídeos.
‍
"Ver no quarto" do Facebook Marketplace: O SAM 3 funciona com o SAM 3D para permitir que as pessoas visualizem mobiliário ou decoração nas suas casas utilizando uma única fotografia.
‍
Aria Gen 2 óculos de investigação: O Segment Anything Model 3 ajuda a segmentar e a seguir as mãos e os objectos a partir de uma visão na primeira pessoa, apoiando a investigação em RA (Realidade Aumentada), robótica e IA contextual.

Principais conclusões

O SAM 3 é um passo em frente entusiasmante para a segmentação. Introduz a segmentação de conceitos, pedidos de texto de vocabulário aberto e rastreio melhorado. Com um desempenho visivelmente mais forte em imagens e vídeos, e com a adição do SAM 3D, o conjunto de modelos abre novas possibilidades para a IA de visão, ferramentas criativas, investigação científica e produtos do mundo real.

Junte-se à nossa comunidade e explore o nosso repositório GitHub para descobrir mais sobre IA. Se pretende criar o seu próprio projeto de IA de visão, consulte as nossas opções de licenciamento. Explore mais sobre aplicações como a IA nos cuidados de saúde e a IA de visão no retalho visitando as nossas páginas de soluções.

Explorar o SAM 3: o novo modelo Segment Anything da Meta AI

O que é o SAM 3? Um olhar sobre o Segmento de Qualquer Coisa Modelo 3 do Meta

SAM 3D permite a reconstrução 3D de uma só imagem

SAM 3: Novas funcionalidades para unificar a deteção, a segmentação e o seguimento

Comparação entre SAM 3 e SAM 2 e SAM 1

Como funciona o modelo SAM 3

Uma visão geral da arquitetura do modelo SAM 3

O motor de dados escalável por detrás do segmento Qualquer coisa Modelo 3

Melhorias no desempenho do SAM 3

Aplicações do segmento Qualquer coisa Modelo 3

Tratamento de consultas de texto complexas com o agente SAM 3

Aplicações científicas e de conservação da SAM 3

Como a Meta está a implementar o SAM 3 nos seus produtos

Principais conclusões

Leia mais nesta categoria

Explorar o SAM 3: o novo modelo Segment Anything da Meta AI

Porque é que as empresas devem deixar de ignorar a visão computacional hoje

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

Vamos construir o futuro
da IA juntos!

Explorar o SAM 3: o novo modelo Segment Anything da Meta AI

O que é o SAM 3? Um olhar sobre o Segmento de Qualquer Coisa Modelo 3 do Meta

SAM 3D permite a reconstrução 3D de uma só imagem

SAM 3: Novas funcionalidades para unificar a deteção, a segmentação e o seguimento

Comparação entre SAM 3 e SAM 2 e SAM 1

Como funciona o modelo SAM 3

Uma visão geral da arquitetura do modelo SAM 3

O motor de dados escalável por detrás do segmento Qualquer coisa Modelo 3

Melhorias no desempenho do SAM 3

Aplicações do segmento Qualquer coisa Modelo 3

Tratamento de consultas de texto complexas com o agente SAM 3

Aplicações científicas e de conservação da SAM 3

Como a Meta está a implementar o SAM 3 nos seus produtos

Principais conclusões

Leia mais nesta categoria

Explorar o SAM 3: o novo modelo Segment Anything da Meta AI

Porque é que as empresas devem deixar de ignorar a visão computacional hoje

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!