Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Sugestão visual

Explore o prompt visual para orientar modelos de IA com pontos e caixas. Saiba como Ultralytics YOLO SAM uma segmentação precisa e uma anotação de dados mais rápida.

O prompt visual é uma técnica emergente em visão computacional, na qual os utilizadores fornecem pistas espaciais ou visuais — como pontos, caixas delimitadoras ou rabiscos — para orientar o foco de um modelo de IA para objetos ou regiões específicos dentro de uma imagem. Ao contrário da engenharia de prompt tradicional, que depende principalmente de descrições de texto, o prompt visual permite uma interação mais precisa e intuitiva com sistemas de Inteligência Artificial (IA). Este método aproveita os recursos dos modernos modelos básicos para realizar tarefas como segmentação e deteção sem exigir retreinamento extensivo ou grandes conjuntos de dados rotulados. Ao efetivamente "apontar" para o que é importante, os utilizadores podem adaptar modelos de uso geral a novas tarefas instantaneamente, preenchendo a lacuna entre a intenção humana e a percepção da máquina.

Mecanismos de estímulo visual

Na sua essência, o prompt visual funciona injetando informações espaciais diretamente no pipeline de processamento do modelo. Quando um utilizador clica num objeto ou desenha uma caixa, essas entradas são convertidas em incorporações baseadas em coordenadas que a rede neural integra com as características da imagem. Esse processo é fundamental para arquiteturas interativas como o Segment Anything Model (SAM), em que o modelo prevê máscaras com base em prompts geométricos.

A flexibilidade dos prompts visuais permite vários tipos de interação:

  • Sugestões de pontos: um utilizador clica num pixel específico para indicar o objeto de interesse. O modelo então expande essa seleção para todos os limites do objeto.
  • Sugestões da caixa: Desenhar uma caixa delimitadora fornece uma localização aproximada, sinalizando ao modelo para segment classify está contido nessa área.
  • Sugestões de rabiscos: linhas desenhadas à mão livre sobre um objeto podem ajudar a esclarecer cenas complexas em que os objetos se sobrepõem ou têm texturas semelhantes.

Uma pesquisa recente apresentada na CVPR 2024 destaca como o prompt visual reduz significativamente o tempo necessário para a anotação de dados, já que os anotadores humanos podem corrigir as previsões do modelo em tempo real com cliques simples, em vez de traçar polígonos manualmente.

Sugestões visuais vs. sugestões textuais

Embora ambas as técnicas tenham como objetivo orientar o comportamento do modelo, é importante distinguir o prompt visual dos métodos baseados em texto . A geração de texto para imagem ou a deteção zero-shot dependem do processamento de linguagem natural (NLP) para interpretar descrições semânticas (por exemplo, «encontrar o carro vermelho»). No entanto, a linguagem pode ser ambígua ou insuficiente para descrever localizações espaciais precisas ou formas abstratas.

O prompt visual resolve essa ambiguidade ao basear a instrução no próprio espaço de pixels. Por exemplo, na análise de imagens médicas, é muito mais preciso para um radiologista clicar num nódulo suspeito do que tentar descrever as suas coordenadas exatas e forma irregular por meio de texto. Muitas vezes, os fluxos de trabalho mais poderosos combinam ambas as abordagens — usando texto para filtragem semântica e prompts visuais para precisão espacial — um conceito conhecido como aprendizagem multimodal.

Aplicações no Mundo Real

A adaptabilidade dos prompts visuais levou à sua rápida adoção em diversos setores:

  • Diagnóstico médico interativo: Os médicos utilizam ferramentas de orientação visual para isolar tumores ou órgãos em exames de ressonância magnética. Basta clicar numa região de interesse para gerar instantaneamente medições volumétricas em 3D, auxiliando na deteção precisa de tumores e no planeamento cirúrgico.
  • Edição inteligente de fotos: em softwares de consumo, como o Adobe Photoshop ou aplicativos móveis, os comandos visuais acionam ferramentas de "seleção mágica". Os utilizadores podem tocar em uma pessoa ou objeto para remover o fundo ou aplicar filtros específicos , utilizando tecnologias subjacentes de segmentação de instâncias sem precisar de habilidades manuais de máscara.
  • Manipulação robótica: Na IA em robótica, os robôs podem ser instruídos a pegar itens específicos por meio de uma interface visual. Um operador clica em um objeto na imagem da câmara do robô, fornecendo um comando visual que o robô traduz em coordenadas de preensão, facilitando a automação com intervenção humana em armazéns.

Implementação com Ultralytics

O Ultralytics suporta fluxos de trabalho de prompt visual, particularmente através de modelos como FastSAM SAM. Esses modelos permitem que os programadores passem coordenadas de pontos ou caixas programaticamente para recuperar máscaras de segmentação.

O exemplo a seguir demonstra como usar o ultralytics pacote para aplicar um prompt de ponto a uma imagem, instruindo o modelo a segment objeto localizado em coordenadas específicas.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Avançando na agilidade do modelo

O prompt visual representa uma mudança em direção à visão computacional "promptável", em que os modelos não são mais "caixas pretas" estáticas, mas ferramentas interativas. Essa capacidade é essencial para ciclos de aprendizagem ativos, em que os modelos melhoram rapidamente ao incorporar o feedback do utilizador.

Para os programadores que pretendem integrar essas capacidades na produção, Ultralytics oferece ferramentas para gerir conjuntos de dados e implementar modelos capazes de lidar com entradas dinâmicas. À medida que a investigação avança, esperamos ver uma integração ainda mais estreita entre prompts visuais e grandes modelos de linguagem (LLMs), permitindo sistemas que possam raciocinar sobre entradas visuais com a mesma fluência com que atualmente lidam com texto.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora