Entendendo a segmentação de conceitos por prompts
Explora a segmentação de conceitos por prompts, como ela difere dos métodos tradicionais e como modelos relacionados, como o YOLOE-26, permitem capacidades de vocabulário aberto.

A IA de visão está avançando rapidamente e sendo amplamente utilizada para analisar imagens e vídeos em ambientes do mundo real. Por exemplo, aplicações que variam de sistemas de gerenciamento de tráfego a análises de varejo estão sendo integradas com modelos de visão computacional.
Em muitas dessas aplicações, os modelos de visão, como os modelos de detecção de objetos, são treinados para reconhecer um conjunto predefinido de objetos, incluindo veículos, pessoas e equipamentos. Durante o treinamento, esses modelos veem muitos exemplos rotulados para que possam aprender como cada objeto aparece e como distingui-lo de outros em uma cena.
Para tarefas de segmentação, os modelos vão um passo além, produzindo contornos precisos ao nível do pixel ao redor desses objetos. Isso permite que os sistemas entendam exatamente onde cada objeto está localizado em uma imagem.
Isso funciona bem desde que o sistema só precise reconhecer o que foi treinado para ver. No entanto, em ambientes do mundo real, raramente esse é o caso.
Cenas visuais são geralmente dinâmicas. Novos objetos e conceitos visuais aparecem, as condições mudam e os usuários muitas vezes desejam segmentar objetos que não faziam parte da configuração original de treinamento.
Essas limitações são especialmente claras quando se trata de segmentação. À medida que a IA de visão continua a evoluir, há uma necessidade crescente de modelos de segmentação mais flexíveis que possam se adaptar a novos conceitos sem a necessidade de retreinamentos repetidos. É por isso que a segmentação de conceitos por prompts (PCS) está ganhando atenção.
Em vez de depender de uma lista fixa de categorias de objetos, você pode descrever o que deseja segmentar usando texto, prompts visuais ou imagens de exemplo. Esses modelos podem então identificar e segmentar todas as regiões que correspondem ao conceito descrito, mesmo que esse conceito não tenha sido incluído explicitamente durante o treinamento.
Neste artigo, exploraremos como funciona a segmentação de conceitos por prompts, como ela difere das abordagens tradicionais e onde é utilizada hoje.
Link to this sectionO que é segmentação de conceitos por prompts?#
Na maioria dos casos, os modelos de segmentação são treinados para reconhecer uma curta lista de tipos de objetos. Isso funciona bem quando um sistema de IA de visão só precisa detectar e segmentar um conjunto específico de objetos.
Em aplicações do mundo real, no entanto, as cenas visuais são dinâmicas. Novos objetos aparecem, os requisitos da tarefa mudam e os usuários muitas vezes precisam segmentar conceitos que não foram incluídos no conjunto de rótulos original. Apoiar essas situações normalmente significa coletar novos dados e anotações de alta qualidade e retreinar o modelo, o que aumenta o custo e retarda a implementação.
A segmentação de conceitos por prompts resolve esse problema permitindo que os usuários digam ao modelo o que procurar, em vez de escolher entre uma lista fixa de rótulos. Você descreve o objeto ou ideia que está procurando, e o modelo destaca todas as áreas correspondentes na imagem. Isso torna muito mais fácil conectar a intenção do usuário aos pixels reais em uma imagem.

Fig 1. Uma análise do uso de prompts de conceito para segmentação (Fonte)
Link to this sectionOrientando a segmentação com diferentes tipos de prompts#
Os modelos que suportam segmentação de conceitos por prompts são flexíveis porque podem aceitar diferentes tipos de entrada. Em outras palavras, existe mais de uma maneira de dizer ao modelo o que procurar, como descrições de texto, dicas visuais ou através de imagens de exemplo.
Aqui está uma análise mais detalhada de cada abordagem:
- Prompts de texto: Frases curtas como “ônibus escolar” ou “região do tumor” podem ser usadas para descrever o conceito a ser segmentado. O modelo interpreta o significado das palavras e identifica as regiões correspondentes.
- Prompts visuais: Estes prompts usam pontos, caixas ou esboços rápidos dentro da imagem como dicas. Essas pistas orientam onde procurar e ajudam a definir o contorno final.
- Exemplos de imagem: Imagens de referência ou pequenos recortes representam o conceito de interesse. O modelo procura regiões visualmente semelhantes e as segmenta com base na aparência visual.
Link to this sectionA diferença entre a PCS e a segmentação tradicional#
Antes de mergulharmos em como a segmentação de conceitos por prompts funciona, vamos primeiro compará-la a vários métodos tradicionais de segmentação de objetos.
A PCS permite modelos que são de vocabulário aberto e orientados por prompts. Ela pode trabalhar com novas ideias descritas através de prompts, mas a segmentação tradicional não pode. Existem vários tipos diferentes de abordagens de segmentação tradicional, cada uma com seus próprios pressupostos e limitações.
Aqui está um vislumbre de alguns tipos principais de segmentação tradicional:
- Segmentação semântica: Cada pixel na imagem é rotulado como parte de uma categoria como estrada, prédio ou pessoa. Todos os pixels com o mesmo rótulo são agrupados, portanto, o modelo não separa instâncias individuais de objetos.
- Segmentação de instância: O modelo identifica e segmenta objetos individuais, de modo que duas pessoas ou dois carros sejam tratados como itens separados.
- Segmentação panóptica: Esta técnica combina segmentação semântica e de instância para fornecer uma visão completa da cena, cobrindo tanto as regiões de fundo quanto objetos individuais.
Todas essas abordagens dependem de uma lista predefinida de categorias de objetos. Elas funcionam bem dentro desse escopo, mas não lidam muito bem com conceitos fora dele. Quando um novo objeto específico precisa ser segmentado, dados de treinamento adicionais e ajuste fino do modelo são geralmente necessários.
A PCS visa mudar isso. Em vez de estar bloqueada em categorias predefinidas, ela permite que você descreva o que deseja segmentar em uma imagem no momento da inferência.
Link to this sectionA evolução dos modelos de PCS#
A seguir, vamos ver como os modelos de segmentação evoluíram em direção à segmentação de conceitos por prompts.
Um modelo de fundação popular que marcou uma mudança na segmentação foi o SAM, ou Segment Anything Model. Foi introduzido em 2023. Em vez de depender de categorias de objetos predefinidas, o SAM permitia que os usuários orientassem a segmentação usando prompts visuais simples, como pontos ou caixas delimitadoras.
Com o SAM, os usuários não precisavam mais selecionar um rótulo. Eles podiam simplesmente indicar onde um objeto estava, e o modelo geraria uma máscara para ele. Isso tornou a segmentação mais flexível, mas os usuários ainda precisavam mostrar ao modelo onde procurar.
SAM 2, lançado em 2024, baseou-se nessa ideia ao lidar com cenas mais complexas e estender a segmentação por prompts para vídeo. Ele melhorou a robustez em diferentes condições de iluminação, formas de objetos e movimento, enquanto ainda dependia principalmente de prompts visuais para orientar a segmentação.
O modelo SAM 3 é o passo mais recente nesta evolução. Foi lançado no ano passado e é um modelo unificado que combina compreensão visual com orientação por linguagem, permitindo um comportamento consistente em tarefas de segmentação de imagem e vídeo.
Com o SAM 3, você não se limita a apontar ou desenhar prompts. Em vez disso, você pode descrever o que deseja segmentar usando texto, e o modelo procura na imagem ou nos quadros de vídeo por regiões que correspondam a essa descrição.
A segmentação é guiada por conceitos, e não por categorias de objetos fixas, suportando o uso de vocabulário aberto em diferentes cenas e ao longo do tempo. Na verdade, o SAM 3 opera sobre um grande espaço de conceitos aprendido, que é fundamentado em uma ontologia derivada de fontes como Wikidata e expandida através de dados de treinamento em larga escala.

Fig 2. Um exemplo de uso de prompts no SAM 3 e segmentação de uma única imagem (Fonte)
Comparado às versões anteriores que dependiam principalmente de prompts geométricos, o SAM 3 representa um passo em direção a uma segmentação mais flexível e orientada por conceitos. Isso o torna mais adequado para aplicações do mundo real, onde os objetos ou ideias de interesse podem mudar e nem sempre podem ser definidos com antecedência.
Link to this sectionExplorando como funciona a segmentação visual por prompts#
Então, como funciona a segmentação de conceitos por prompts? Ela se baseia em grandes modelos de visão pré-treinados e modelos de linguagem de visão, que são modelos treinados em coleções massivas de imagens e, em muitos casos, texto pareado. Esse treinamento permite que eles aprendam padrões visuais gerais e significado semântico.
A maioria dos modelos de PCS usa arquiteturas baseadas em Transformer, que processam uma imagem inteira de uma vez para entender como diferentes regiões se relacionam entre si. Um transformador de visão extrai recursos visuais da imagem, enquanto um codificador de texto converte palavras em representações numéricas com as quais o modelo pode trabalhar.
Durante o treinamento, esses modelos podem aprender com diferentes tipos de supervisão, incluindo máscaras em nível de pixel que definem contornos exatos de objetos, caixas delimitadoras que localizam aproximadamente os objetos e rótulos em nível de imagem que descrevem o que aparece em uma imagem. Treinar usando diferentes tipos de dados rotulados ajuda o modelo a capturar tanto detalhes finos quanto conceitos visuais mais amplos.
No momento da inferência, ou seja, quando o modelo é realmente usado para fazer previsões, a PCS segue um processo orientado por prompts. Você fornece orientação através de descrições de texto, dicas visuais como pontos ou caixas, ou imagens de exemplo. O modelo codifica tanto o prompt quanto a imagem em uma representação interna compartilhada ou embeddings e identifica regiões que se alinham com o conceito descrito.
Um decodificador de máscara então converte essa representação compartilhada em máscaras de segmentação precisas em nível de pixel. Como o modelo vincula recursos visuais ao significado semântico, ele pode segmentar novos conceitos, mesmo que não tenham sido incluídos explicitamente durante o treinamento.
Além disso, muitas vezes o resultado pode ser refinado ajustando o prompt ou adicionando orientação adicional, o que ajuda o modelo a lidar com cenas complexas ou ambíguas. Esse processo iterativo suporta a otimização prática durante a implantação.
Os modelos de segmentação de conceitos por prompts são geralmente avaliados com base em quão bem segmentam conceitos nunca vistos anteriormente e quão robustamente operam em diferentes cenas. Os benchmarks frequentemente se concentram na qualidade da máscara, generalização e eficiência computacional, refletindo os requisitos de implantação no mundo real.
Link to this sectionCasos de uso da PCS no mundo real#
A seguir, vejamos onde a segmentação de conceitos por prompts já está sendo usada e começando a causar um impacto real.
Link to this sectionSegmentação de imagem flexível para imagens médicas#
A imagem médica envolve muitas estruturas biológicas, doenças e tipos de exame, e novos casos surgem todos os dias. Os modelos de segmentação tradicionais lutam para acompanhar essa variedade.
A PCS se encaixa naturalmente nesse espaço porque permite que os clínicos descrevam o que desejam encontrar em vez de escolher a partir de uma lista curta e rígida. Com frases de texto ou prompts visuais, a PCS pode ser usada para segmentar órgãos ou áreas de preocupação diretamente, sem retreinar o modelo para cada nova tarefa. Isso facilita o manuseio de diversas necessidades clínicas, reduz a necessidade de desenho manual de máscaras e funciona em muitos tipos de imagem.
Um excelente exemplo é o MedSAM-3, que adapta a arquitetura SAM 3 para PCS baseada em prompts de texto em imagens médicas. Este modelo pode ser solicitado com termos anatômicos e patológicos explícitos, como nomes de órgãos (fígado ou rim) e conceitos relacionados a lesões (tumor ou lesão). Dado um prompt, o modelo segmenta diretamente a região correspondente na imagem médica.
O MedSAM-3 também integra modelos de linguagem grande multimodais (MLLMs ou multimodal LLMs), que podem raciocinar sobre texto e imagens. Esses modelos operam em uma configuração de agente-no-loop, onde os resultados são refinados iterativamente para melhorar a precisão em casos mais desafiadores.

Fig 3. Um pipeline MedSAM-3 para segmentação de tumor por prompts de texto em imagens médicas (Fonte)
O MedSAM-3 apresenta um bom desempenho em dados de raio-X, ressonância magnética, tomografia computadorizada, ultrassom e vídeo, destacando como a PCS pode permitir fluxos de trabalho de imagem médica mais flexíveis e eficientes em ambientes clínicos reais.
Link to this sectionSegmentação adaptativa para cirurgia robótica e automação#
Cirurgia robótica depende de sistemas de visão para rastrear ferramentas e entender cenas cirúrgicas em rápida mudança. Os instrumentos se movem rapidamente, a iluminação varia e novas ferramentas podem aparecer a qualquer momento, o que torna os sistemas de rótulos predefinidos difíceis de manter.
Com a PCS, os robôs podem rastrear ferramentas, orientar câmeras e seguir etapas cirúrgicas em tempo real. Isso reduz a rotulagem manual e torna os sistemas mais fáceis de adaptar a diferentes procedimentos. Cirurgiões ou sistemas automatizados podem usar prompts de texto como “pinça”, “bisturi” ou “ferramenta de câmera” para indicar o que deve ser segmentado em uma imagem.

Fig 4. Segmentação de instrumentos cirúrgicos usados durante a cirurgia robótica (Fonte)
Link to this sectionSegmentação de vocabulário aberto com o Ultralytics YOLOE-26#
Outro modelo de ponta interessante relacionado à segmentação de conceitos por prompts é o nosso Ultralytics YOLOE-26. Nosso modelo traz segmentação de vocabulário aberto e orientada por prompts para a família de modelos Ultralytics YOLO.
O YOLOE-26 é construído sobre a arquitetura Ultralytics YOLO26 e suporta segmentação de instância de vocabulário aberto. O YOLOE-26 permite que os usuários orientem a segmentação de várias maneiras.
Ele suporta prompts de texto, onde frases curtas e visualmente fundamentadas podem especificar o objeto alvo, bem como prompts visuais, que fornecem orientação adicional com base em pistas de imagem. Além disso, o YOLOE-26 inclui um modo sem prompt para inferência zero-shot, onde o modelo detecta e segmenta objetos de um vocabulário interno sem exigir prompts do usuário.
O YOLOE-26 é excelente para aplicações como análise de vídeo, percepção robótica e sistemas baseados em edge, onde as categorias de objetos podem mudar, mas a baixa latência e o throughput confiável permanecem essenciais. Ele também é especialmente útil para rotulagem de dados e curadoria de conjuntos de dados, pois agiliza fluxos de trabalho ao automatizar partes do processo de anotação.
Link to this sectionPrós e contras da segmentação de conceitos por prompts#
Aqui estão alguns dos principais benefícios de usar a segmentação de conceitos por prompts:
- Iteração e prototipagem mais rápidas: Novas tarefas de segmentação podem ser testadas rapidamente alterando prompts, em vez de reconstruir conjuntos de dados ou retreinar modelos, o que acelera a experimentação e o desenvolvimento.
- Adaptabilidade entre domínios: O mesmo modelo de PCS pode muitas vezes ser aplicado a diferentes domínios, como imagens médicas, robótica ou análise de vídeo, com mudanças mínimas no fluxo de trabalho.
- Refinamento interativo: Os usuários podem ajustar iterativamente os prompts ou adicionar orientação para melhorar os resultados, facilitando a manipulação de cenas ambíguas ou casos de borda sem retreinamento.
Embora a PCS tenha vantagens claras, aqui estão algumas limitações a considerar:
- Sensibilidade ao prompt: Pequenas mudanças na forma como um prompt é escrito ou fornecido podem afetar o resultado. Prompts muito vagos ou muito específicos podem levar a uma segmentação incompleta ou incorreta.
- Comportamento menos previsível: Como o modelo interpreta prompts em vez de selecionar entre rótulos fixos, os resultados podem variar mais entre cenas e entradas, o que pode ser um problema para pipelines rigorosamente controlados.
- Interpretação ambígua de conceitos: Alguns conceitos são subjetivos ou vagamente definidos, o que pode levar a resultados de segmentação inconsistentes entre usuários ou entre imagens.
- Confiabilidade limitada para alvos altamente específicos: Modelos baseados em prompt são geralmente menos confiáveis para tarefas estreitamente definidas e específicas de instância, como detecção de defeitos, onde é necessária uma identificação precisa e consistente de características sutis.
Link to this sectionEscolhendo entre segmentação por prompts e segmentação tradicional#
Ao explorar a segmentação por prompts, você pode se perguntar para quais aplicações ela é mais adequada e quando um modelo tradicional de visão computacional como o YOLO26 é mais adequado para o problema que você está tentando resolver. A segmentação por prompts funciona bem para objetos gerais, mas não é adequada para casos de uso que exigem resultados muito precisos e consistentes.
A detecção de defeitos é um bom exemplo. Na fabricação, os defeitos são frequentemente minúsculos e sutis, como pequenos arranhões, mossas, desalinhamentos ou irregularidades na superfície. Eles também podem variar amplamente dependendo dos materiais, iluminação e condições de produção.
Essas questões são difíceis de descrever com um prompt simples e ainda mais difíceis para um modelo de uso geral detectar de forma confiável. No geral, os modelos baseados em prompt tendem a perder defeitos ou produzir resultados instáveis, enquanto os modelos treinados especificamente em dados de defeitos são muito mais confiáveis para sistemas de inspeção do mundo real.
Link to this sectionPrincipais pontos#
A segmentação de conceitos por prompts torna os sistemas de visão mais fáceis de adaptar ao mundo real, onde novos objetos e ideias aparecem o tempo todo. Em vez de ficar bloqueado em rótulos fixos, você pode simplesmente descrever o que deseja segmentar e deixar o modelo fazer o resto, o que economiza tempo e reduz o trabalho manual. Embora ainda tenha limitações, a PCS já está mudando a forma como a segmentação é usada na prática e provavelmente se tornará uma parte central dos futuros sistemas de visão.
Explore mais sobre IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Confira nossas páginas de soluções para saber mais sobre IA em robótica e visão computacional na fabricação. Descubra nossas opções de licenciamento para começar a usar IA de visão hoje mesmo!






