Visual Prompting

Explora o visual prompting para guiar modelos de IA com pontos e caixas. Aprende como o Ultralytics YOLO e o SAM permitem segmentação precisa e uma anotação de dados mais rápida.

O visual prompting é uma técnica emergente em visão computacional onde os utilizadores fornecem pistas espaciais ou visuais — como pontos, caixas delimitadoras (bounding boxes) ou rabiscos — para guiar o foco de um modelo de IA para objetos ou regiões específicas dentro de uma imagem. Ao contrário da engenharia de prompt tradicional que depende principalmente de descrições em texto, o visual prompting permite uma interação mais precisa e intuitiva com sistemas de Inteligência Artificial (IA). Este método aproveita as capacidades de modelos de fundação modernos para realizar tarefas como segmentação e deteção sem exigir um extenso re-treino ou grandes conjuntos de dados rotulados. Ao "apontar" eficazmente para o que importa, podes adaptar modelos de uso geral para novas tarefas instantaneamente, unindo a lacuna entre a intenção humana e a perceção da máquina.

Link to this sectionMecanismos de Visual Prompting#

Na sua essência, o visual prompting funciona injetando informação espacial diretamente no pipeline de processamento do modelo. Quando um utilizador clica num objeto ou desenha uma caixa, estas entradas são convertidas em embeddings baseados em coordenadas que a rede neuronal integra com as características da imagem. Este processo é central em arquiteturas interativas como o Segment Anything Model (SAM), onde o modelo prevê máscaras com base em prompts geométricos.

A flexibilidade do visual prompting permite vários tipos de interação:

Point Prompts: Um utilizador clica num pixel específico para indicar o objeto de interesse. O modelo expande então esta seleção para os limites completos do objeto.
Box Prompts: Desenhar uma bounding box fornece uma localização grosseira, sinalizando ao modelo para segmentar ou classificar tudo o que está contido nessa área.
Scribble Prompts: Linhas à mão livre desenhadas sobre um objeto podem ajudar a desambiguar cenas complexas onde os objetos se sobrepõem ou têm texturas semelhantes.

Investigações recentes apresentadas no CVPR 2024 destacam como o visual prompting reduz significativamente o tempo necessário para anotação de dados, uma vez que os anotadores humanos podem corrigir as previsões do modelo em tempo real com cliques simples, em vez de desenhar manualmente polígonos.

Link to this sectionVisual Prompting vs. Text Prompting#

Embora ambas as técnicas visem guiar o comportamento do modelo, é importante distinguir o visual prompting dos métodos baseados em texto. A geração Text-to-image ou a deteção zero-shot baseia-se em processamento de linguagem natural (NLP) para interpretar descrições semânticas (por exemplo, "encontra o carro vermelho"). No entanto, a linguagem pode ser ambígua ou insuficiente para descrever localizações espaciais precisas ou formas abstratas.

O visual prompting resolve esta ambiguidade ao fundamentar a instrução no próprio espaço de píxeis. Por exemplo, em análise de imagens médicas, é muito mais preciso para um radiologista clicar num nódulo suspeito do que tentar descrever as suas coordenadas exatas e forma irregular através de texto. Frequentemente, os fluxos de trabalho mais poderosos combinam ambas as abordagens — usando texto para filtragem semântica e visual prompts para precisão espacial — um conceito conhecido como aprendizagem multi-modal.

Link to this sectionAplicações no Mundo Real#

A adaptabilidade do visual prompting levou à sua rápida adoção em diversas indústrias:

Diagnóstico Médico Interativo: Os médicos utilizam ferramentas de visual prompting para isolar tumores ou órgãos em exames de ressonância magnética. Ao clicar simplesmente numa região de interesse, podem gerar instantaneamente medições volumétricas 3D, auxiliando na deteção de tumores precisa e no planeamento cirúrgico.
Edição Inteligente de Fotos: Em software de consumo como o Adobe Photoshop ou aplicações móveis, o visual prompting alimenta ferramentas de "seleção mágica". Os utilizadores podem tocar numa pessoa ou objeto para remover o fundo ou aplicar filtros específicos, utilizando tecnologias subjacentes de segmentação de instâncias sem precisar de competências de mascaramento manual.
Manipulação Robótica: Em IA em Robótica, os robôs podem ser instruídos a apanhar itens específicos através de uma interface visual. Um operador clica num objeto no feed da câmara do robô, fornecendo um prompt visual que o robô traduz em coordenadas de agarrar, facilitando a automatização human-in-the-loop em armazéns.

Link to this sectionImplementação com Ultralytics#

O ecossistema Ultralytics suporta fluxos de trabalho de visual prompting, particularmente através de modelos como FastSAM e SAM. Estes modelos permitem aos programadores passar coordenadas de pontos ou caixas programaticamente para recuperar máscaras de segmentação.

O exemplo seguinte demonstra como utilizar o pacote ultralytics para aplicar um point prompt a uma imagem, instruindo o modelo a segmentar o objeto localizado em coordenadas específicas.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Link to this sectionPromover a Agilidade do Modelo#

O visual prompting representa uma mudança em direção à visão computacional "promptable", onde os modelos já não são "caixas negras" estáticas, mas sim ferramentas interativas. Esta capacidade é essencial para ciclos de aprendizagem ativa, onde os modelos melhoram rapidamente ao incorporar o feedback do utilizador.

Para programadores que pretendem integrar estas capacidades em produção, a Ultralytics Platform oferece ferramentas para gerir conjuntos de dados e implementar modelos que conseguem lidar com entradas dinâmicas. À medida que a investigação avança, esperamos ver uma integração ainda mais estreita entre visual prompts e grandes modelos de linguagem (LLMs), permitindo sistemas que consigam raciocinar sobre entradas visuais com a mesma fluência com que atualmente lidam com texto.

Visual Prompting

Link to this sectionMecanismos de Visual Prompting#

Link to this sectionVisual Prompting vs. Text Prompting#

Link to this sectionAplicações no Mundo Real#

Link to this sectionImplementação com Ultralytics#

Link to this sectionPromover a Agilidade do Modelo#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!