Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Resposta visual a perguntas (VQA)

Descubra a Resposta a Perguntas Visuais (VQA): como a IA multimodal combina a visão computacional e a PNL para responder a perguntas baseadas em imagens, com métodos-chave e casos de utilização no mundo real.

A Resposta a Perguntas Visuais (VQA) é uma tarefa multidisciplinar desafiante que se situa na interseção entre a Visão Computacional (CV) e o Processamento de Linguagem Natural (NLP). Ao contrário da classificação padrão de imagens, em que um sistema simplesmente atribui uma etiqueta a uma imagem, os sistemas VQA são concebidos para responder a perguntas abertas sobre uma imagem utilizando linguagem natural. Por exemplo, se for apresentada uma foto de uma cena de rua, um utilizador pode perguntar: «De que cor é o carro ao lado da boca de incêndio?» Para responder corretamente, a IA deve compreender a pergunta, localizar os objetos mencionados (carro, boca de incêndio), compreender a sua relação espacial (ao lado) e identificar o atributo específico (cor).

Essa capacidade torna o VQA um pilar da IA multimodal moderna , pois requer um modelo para raciocinar simultaneamente sobre diferentes tipos de dados. O sistema normalmente usa um codificador de visão, como uma rede neural convolucional (CNN) ou um Vision Transformer (ViT), para interpretar características visuais, e um codificador de texto para processar a consulta linguística. Essas entradas são então combinadas usando técnicas de fusão, muitas vezes aproveitando um mecanismo de atenção para focar nas partes relevantes da imagem que correspondem às palavras da pergunta.

Aplicações no Mundo Real

A capacidade de consultar dados visuais dinamicamente abre possibilidades significativas em vários setores.

  • Tecnologia assistiva para utilizadores com deficiência visual: O VQA é uma tecnologia essencial para aplicações de acessibilidade como o Be My Eyes. Ao integrar o VQA, estas aplicações permitem que os utilizadores apontem a câmara do smartphone para o ambiente ao seu redor e façam perguntas como: «Esta garrafa é de champô ou amaciador?» ou «O semáforo da passadeira está verde?» O sistema processa a transmissão de vídeo ao vivo e fornece uma resposta em áudio, promovendo maior independência.
  • Vigilância e segurança inteligentes: No campo da IA em segurança, os operadores muitas vezes precisam analisar horas de filmagens. Em vez da revisão manual, um sistema habilitado para VQA permite que o pessoal de segurança faça perguntas naturais, como «Um camião vermelho entrou na doca de carga depois da meia-noite?» ou «Quantas pessoas estão usando capacetes?» Isso agiliza o processo de detecção de anomalias e melhora os tempos de resposta .

Como o VQA se relaciona com a deteção de objetos

Embora existam modelos VQA completos, muitos pipelines práticos dependem da deteção robusta de objetos como etapa fundamental. Um detetor identifica e localiza os objetos, o que fornece o contexto necessário para o mecanismo de resposta.

Por exemplo, pode usar o YOLO26 para extrair classes e localizações de objetos, que podem então ser introduzidos num modelo de linguagem ou num módulo de raciocínio especializado.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

Distinguindo VQA de termos relacionados

É importante diferenciar a VQA de outras tarefas de linguagem visual para compreender o seu papel específico.

  • VQA vs. Legenda de imagem: A legenda de imagem gera uma descrição genérica de uma imagem inteira (por exemplo, «Um cão a brincar na relva»). A VQA é mais específica e interativa; responde a uma pergunta específica em vez de fornecer um resumo geral.
  • VQA vs. Visual Grounding: O visual grounding concentra-se em localizar um objeto específico mencionado numa frase (por exemplo, desenhar uma caixa delimitadora em torno do «homem alto»). O VQA vai um passo além, não apenas localizando o objeto, mas também analisando os seus atributos ou relações para responder a uma pergunta.
  • VQA vs. Reconhecimento Ótico de Caracteres (OCR): O OCR extrai texto de imagens. Embora o VQA possa usar o OCR para responder a uma pergunta como "O que diz o sinal ?", o VQA é uma capacidade mais ampla que abrange a compreensão de objetos, ações e cenas, não apenas a leitura de texto.

A investigação moderna utiliza frequentemente conjuntos de dados em grande escala, como o Conjunto de Dados VQA, para treinar esses modelos, ajudando-os a generalizar milhões de pares de imagens e perguntas. À medida que os Modelos de Linguagem de Grande Porte (LLMs) continuam a evoluir, as capacidades VQA estão cada vez mais a ser integradas diretamente nos modelos básicos, esbatendo as linhas entre tarefas de visão pura e linguagem pura.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora