Explore o prompt visual para orientar modelos de IA com pontos e caixas. Saiba como Ultralytics YOLO SAM uma segmentação precisa e uma anotação de dados mais rápida.
O prompt visual é uma técnica emergente em visão computacional, na qual os utilizadores fornecem pistas espaciais ou visuais — como pontos, caixas delimitadoras ou rabiscos — para orientar o foco de um modelo de IA para objetos ou regiões específicos dentro de uma imagem. Ao contrário da engenharia de prompt tradicional, que depende principalmente de descrições de texto, o prompt visual permite uma interação mais precisa e intuitiva com sistemas de Inteligência Artificial (IA). Este método aproveita os recursos dos modernos modelos básicos para realizar tarefas como segmentação e deteção sem exigir retreinamento extensivo ou grandes conjuntos de dados rotulados. Ao efetivamente "apontar" para o que é importante, os utilizadores podem adaptar modelos de uso geral a novas tarefas instantaneamente, preenchendo a lacuna entre a intenção humana e a percepção da máquina.
Na sua essência, o prompt visual funciona injetando informações espaciais diretamente no pipeline de processamento do modelo. Quando um utilizador clica num objeto ou desenha uma caixa, essas entradas são convertidas em incorporações baseadas em coordenadas que a rede neural integra com as características da imagem. Esse processo é fundamental para arquiteturas interativas como o Segment Anything Model (SAM), em que o modelo prevê máscaras com base em prompts geométricos.
A flexibilidade dos prompts visuais permite vários tipos de interação:
Uma pesquisa recente apresentada na CVPR 2024 destaca como o prompt visual reduz significativamente o tempo necessário para a anotação de dados, já que os anotadores humanos podem corrigir as previsões do modelo em tempo real com cliques simples, em vez de traçar polígonos manualmente.
Embora ambas as técnicas tenham como objetivo orientar o comportamento do modelo, é importante distinguir o prompt visual dos métodos baseados em texto . A geração de texto para imagem ou a deteção zero-shot dependem do processamento de linguagem natural (NLP) para interpretar descrições semânticas (por exemplo, «encontrar o carro vermelho»). No entanto, a linguagem pode ser ambígua ou insuficiente para descrever localizações espaciais precisas ou formas abstratas.
O prompt visual resolve essa ambiguidade ao basear a instrução no próprio espaço de pixels. Por exemplo, na análise de imagens médicas, é muito mais preciso para um radiologista clicar num nódulo suspeito do que tentar descrever as suas coordenadas exatas e forma irregular por meio de texto. Muitas vezes, os fluxos de trabalho mais poderosos combinam ambas as abordagens — usando texto para filtragem semântica e prompts visuais para precisão espacial — um conceito conhecido como aprendizagem multimodal.
A adaptabilidade dos prompts visuais levou à sua rápida adoção em diversos setores:
O Ultralytics suporta fluxos de trabalho de prompt visual, particularmente através de modelos como FastSAM SAM. Esses modelos permitem que os programadores passem coordenadas de pontos ou caixas programaticamente para recuperar máscaras de segmentação.
O exemplo a seguir demonstra como usar o ultralytics pacote para aplicar um prompt de ponto a uma
imagem, instruindo o modelo a segment objeto localizado em coordenadas específicas.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
O prompt visual representa uma mudança em direção à visão computacional "promptável", em que os modelos não são mais "caixas pretas" estáticas, mas ferramentas interativas. Essa capacidade é essencial para ciclos de aprendizagem ativos, em que os modelos melhoram rapidamente ao incorporar o feedback do utilizador.
Para os programadores que pretendem integrar essas capacidades na produção, Ultralytics oferece ferramentas para gerir conjuntos de dados e implementar modelos capazes de lidar com entradas dinâmicas. À medida que a investigação avança, esperamos ver uma integração ainda mais estreita entre prompts visuais e grandes modelos de linguagem (LLMs), permitindo sistemas que possam raciocinar sobre entradas visuais com a mesma fluência com que atualmente lidam com texto.