Descubra Visual Question Answering (VQA): cómo la IA multimodal combina la visión por ordenador y la PNL para responder a preguntas basadas en imágenes, con métodos clave y casos de uso en el mundo real.
La respuesta a preguntas visuales (VQA) es una tarea multidisciplinar compleja que se encuentra en la intersección entre la visión artificial (CV) y el procesamiento del lenguaje natural (NLP). A diferencia de la clasificación de imágenes estándar, en la que un sistema simplemente asigna una etiqueta a una imagen, los sistemas VQA están diseñados para responder a preguntas abiertas sobre una imagen utilizando lenguaje natural. Por ejemplo, si se le presenta una foto de una escena callejera , un usuario podría preguntar: «¿De qué color es el coche que está junto a la boca de incendios?». Para responder correctamente, la IA debe comprender la pregunta, localizar los objetos mencionados (coche, boca de incendios), comprender su relación espacial (junto a ) e identificar el atributo específico (color).
Esta capacidad convierte a VQA en una piedra angular de la IA multimodal moderna, ya que requiere un modelo para razonar con diferentes tipos de datos simultáneamente. El sistema suele utilizar un codificador de visión, como una red neuronal convolucional (CNN) o un transformador de visión (ViT), para interpretar las características visuales, y un codificador de texto para procesar la consulta lingüística. A continuación, estas entradas se combinan mediante técnicas de fusión , a menudo aprovechando un mecanismo de atención para centrarse en las partes relevantes de la imagen que se corresponden con las palabras de la pregunta.
La capacidad de consultar datos visuales de forma dinámica abre importantes posibilidades en diversos sectores.
Aunque existen modelos VQA de extremo a extremo, muchos procesos prácticos se basan en una detección de objetos robusta como paso fundamental. Un detector identifica y localiza los objetos, lo que proporciona el contexto necesario para el motor de respuesta.
Por ejemplo, se puede utilizar YOLO26 para extraer clases y ubicaciones de objetos, que luego pueden introducirse en un modelo de lenguaje o un módulo de razonamiento especializado.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
print(r.boxes.cls) # Class indices
r.show() # Visualize the context
Es importante diferenciar la VQA de otras tareas relacionadas con el lenguaje visual para comprender su función específica.
La investigación moderna suele utilizar conjuntos de datos a gran escala, como el conjunto de datos VQA, para entrenar estos modelos, lo que les ayuda a generalizar a través de millones de pares de imágenes y preguntas. A medida que los grandes modelos de lenguaje (LLM) siguen evolucionando, las capacidades VQA se integran cada vez más directamente en los modelos básicos, difuminando las líneas entre las tareas de visión pura y las de lenguaje puro.