Descubra a Resposta a Perguntas Visuais (VQA): como a IA multimodal combina a visão computacional e a PNL para responder a perguntas baseadas em imagens, com métodos-chave e casos de utilização no mundo real.
A resposta a perguntas visuais (VQA) é uma tarefa multidisciplinar sofisticada no âmbito da inteligência artificial (IA) que que faz a ponte entre a Visão por Computador (CV) e o Processamento de linguagem natural (PNL). Enquanto os sistemas tradicionais de visão por computador se concentram no reconhecimento de objectos ou na classificação de imagens, os sistemas de VQA são concebidos para para dar uma resposta em linguagem natural a uma pergunta específica com base no conteúdo visual de uma imagem. Por exemplo, dada uma fotografia de uma cena de rua e a pergunta "De que cor é o carro à esquerda?", um modelo VQA analisa a imagem, localiza o objeto específico a imagem, localiza o objeto específico, determina os seus atributos e formula uma resposta de texto correta. Esta capacidade de raciocinar em diferentes modalidades de dados faz da VQA um componente fundamental da IA multimodal avançada.
A arquitetura de um sistema VQA envolve normalmente três fases principais: extração de caraterísticas, fusão multimodal e geração de respostas. Inicialmente, o sistema utiliza modelos de aprendizagem profunda para processar as entradas. Um modelo de visão, como uma Rede Neuronal Convolucional (CNN) ou um Transformador de Visão (ViT), extrai caraterísticas visuais da imagem. Simultaneamente, a pergunta de texto é tokenizada e convertida em embeddings utilizando modelos de linguagem.
O passo crítico é a fusão destes dois fluxos de informação. Os sistemas modernos utilizam frequentemente um mecanismo de atenção, um conceito popularizado pelo pelo artigo de investigação "Attention Is All You Need", para alinhar as para alinhar as palavras do texto com as regiões correspondentes na imagem. Isto permite que o modelo "olhe" para a parte relevante da da imagem (por exemplo, o carro) ao processar a palavra "cor". Finalmente, o modelo prevê uma resposta, tratando efetivamente o problema como uma tarefa de classificação especializada sobre um conjunto de respostas possíveis. O treino destes modelos requerem dados de treino anotados em massa, como como o conjunto de dados de referência VQA, que contém milhões de triplas imagem-pergunta-resposta resposta.
Embora os sistemas VQA sejam complexos, a componente visual depende frequentemente de capacidades de deteção robustas. Pode ver-se como um modelo modelo como o YOLO11 extrai dados fundamentais de objectos abaixo:
from ultralytics import YOLO
# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()
A tecnologia VQA está a transformar as indústrias ao permitir que as máquinas compreendam o contexto de uma forma semelhante à humana.
Para compreender plenamente o VQA, é útil distingui-lo de termos semelhantes no panorama da termos semelhantes no panorama da aprendizagem automática (ML):
O desenvolvimento do VQA é alimentado por estruturas de código aberto como PyTorch e TensorFlowe continua a evoluir com o aparecimento de modelos de linguagem de grande porte (LLMs) integrados em pipelines de visão.