Descubra a Resposta a Perguntas Visuais (VQA): como a IA multimodal combina a visão computacional e a PNL para responder a perguntas baseadas em imagens, com métodos-chave e casos de utilização no mundo real.
A Resposta a Perguntas Visuais (VQA) é uma tarefa multidisciplinar desafiante que se situa na interseção entre a Visão Computacional (CV) e o Processamento de Linguagem Natural (NLP). Ao contrário da classificação padrão de imagens, em que um sistema simplesmente atribui uma etiqueta a uma imagem, os sistemas VQA são concebidos para responder a perguntas abertas sobre uma imagem utilizando linguagem natural. Por exemplo, se for apresentada uma foto de uma cena de rua, um utilizador pode perguntar: «De que cor é o carro ao lado da boca de incêndio?» Para responder corretamente, a IA deve compreender a pergunta, localizar os objetos mencionados (carro, boca de incêndio), compreender a sua relação espacial (ao lado) e identificar o atributo específico (cor).
Essa capacidade torna o VQA um pilar da IA multimodal moderna , pois requer um modelo para raciocinar simultaneamente sobre diferentes tipos de dados. O sistema normalmente usa um codificador de visão, como uma rede neural convolucional (CNN) ou um Vision Transformer (ViT), para interpretar características visuais, e um codificador de texto para processar a consulta linguística. Essas entradas são então combinadas usando técnicas de fusão, muitas vezes aproveitando um mecanismo de atenção para focar nas partes relevantes da imagem que correspondem às palavras da pergunta.
A capacidade de consultar dados visuais dinamicamente abre possibilidades significativas em vários setores.
Embora existam modelos VQA completos, muitos pipelines práticos dependem da deteção robusta de objetos como etapa fundamental. Um detetor identifica e localiza os objetos, o que fornece o contexto necessário para o mecanismo de resposta.
Por exemplo, pode usar o YOLO26 para extrair classes e localizações de objetos, que podem então ser introduzidos num modelo de linguagem ou num módulo de raciocínio especializado.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
print(r.boxes.cls) # Class indices
r.show() # Visualize the context
É importante diferenciar a VQA de outras tarefas de linguagem visual para compreender o seu papel específico.
A investigação moderna utiliza frequentemente conjuntos de dados em grande escala, como o Conjunto de Dados VQA, para treinar esses modelos, ajudando-os a generalizar milhões de pares de imagens e perguntas. À medida que os Modelos de Linguagem de Grande Porte (LLMs) continuam a evoluir, as capacidades VQA estão cada vez mais a ser integradas diretamente nos modelos básicos, esbatendo as linhas entre tarefas de visão pura e linguagem pura.