Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Resposta visual a perguntas (VQA)

Descubra a Resposta a Perguntas Visuais (VQA): como a IA multimodal combina a visão computacional e a PNL para responder a perguntas baseadas em imagens, com métodos-chave e casos de utilização no mundo real.

A resposta a perguntas visuais (VQA) é um domínio especializado da inteligência artificial (IA) que combina a visão por computador (CV) e o processamento de linguagem natural (PNL) para criar sistemas capazes de responder a perguntas sobre o conteúdo de uma imagem. Dada uma imagem e uma pergunta em linguagem natural, um modelo VQA processa ambas as entradas para gerar uma resposta relevante e exacta. Esta tecnologia representa um passo significativo no sentido de criar uma IA capaz de perceber e raciocinar sobre o mundo de uma forma mais humana, indo além do simples reconhecimento para um nível mais profundo de compreensão contextual. O VQA é um componente essencial da IA multimodal avançada, permitindo interações homem-computador mais intuitivas e poderosas.

Como funciona a resposta visual a perguntas

Um sistema VQA funciona através da integração de informações de dois tipos de dados distintos: visuais e textuais. O processo envolve normalmente um modelo multimodal que aprende a ligar a linguagem aos dados visuais. Primeiro, a parte visual do modelo, frequentemente uma rede neural convolucional (CNN) ou um transformador de visão (ViT), efectua a extração de caraterísticas para converter a imagem numa representação numérica que capta os seus elementos-chave. Simultaneamente, a parte textual do modelo processa a pergunta para criar uma incorporação numérica semelhante.

Estas duas representações são depois fundidas, utilizando frequentemente um mecanismo de atenção, que permite ao modelo concentrar-se nas partes mais relevantes da imagem para uma determinada questão. A arquitetura subjacente baseia-se frequentemente no modelo Transformer, descrito no artigo seminal "Attention Is All You Need". O modelo é treinado em grandes conjuntos de dados que contêm triplas imagem-pergunta-resposta, como o conjunto de dados VQA amplamente utilizado, o que o ajuda a aprender as relações complexas entre cenas visuais e linguagem.

Aplicações no Mundo Real

A tecnologia VQA está a impulsionar a inovação em vários sectores. Eis alguns exemplos proeminentes:

  1. Tecnologia de assistência para pessoas com deficiência visual: A VQA pode alimentar aplicações que descrevem o mundo a pessoas com deficiências visuais. Um utilizador pode apontar a câmara do seu smartphone para uma cena e fazer perguntas como: "O que está em cima da mesa?" ou "O semáforo está verde?" para navegar no seu ambiente de forma mais segura e independente. Esta é uma área de investigação fundamental para organizações como a Google AI.
  2. Educação interactiva: Nas plataformas de e-learning, o VQA pode tornar os conteúdos educativos mais interessantes. Um estudante de biologia pode fazer perguntas sobre um diagrama de uma célula, como "Qual é a função da mitocôndria?" e receber uma resposta instantânea e contextualizada. Isto cria uma experiência de aprendizagem dinâmica que melhora a IA na educação.

Relação com Outros Conceitos

É útil distinguir a VQA das tarefas de IA relacionadas:

  • VQA vs. Resposta a perguntas: Um sistema normal de resposta a perguntas (QA) funciona com fontes de conhecimento baseadas em texto, como documentos ou bases de dados. O VQA distingue-se pelo facto de ter de obter as suas respostas a partir de dados visuais, o que exige uma combinação de perceção visual e compreensão da linguagem.
  • VQA vs. Legenda de imagem: A legendagem de imagens envolve a criação de uma descrição única e geral de uma imagem (por exemplo, "Um cão está a brincar ao apanha no parque"). Em contrapartida, a VQA fornece uma resposta específica a uma pergunta específica (por exemplo, "De que cor é a coleira do cão?").
  • VQA vs. Grounding: A fundamentação é a tarefa de ligar uma descrição textual a um objeto ou região específica numa imagem. Os sistemas de VQA utilizam frequentemente a fundamentação como um passo fundamental para identificar primeiro os elementos mencionados na pergunta antes de raciocinar sobre eles para formular uma resposta.

O desenvolvimento de sistemas VQA assenta em estruturas robustas de aprendizagem profunda como o PyTorch e o TensorFlow, com investigação contínua de instituições como o Allen Institute for AI (AI2). O progresso nos modelos de linguagem de visão continua a alargar os limites do possível, permitindo um raciocínio visual mais sofisticado e preciso. Pode explorar a documentação do Ultralytics para saber mais sobre a implementação de modelos de IA de visão de ponta.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência