Descubra Visual Question Answering (VQA): cómo la IA multimodal combina la visión por ordenador y la PNL para responder a preguntas basadas en imágenes, con métodos clave y casos de uso en el mundo real.
Visual Question Answering (VQA) es una sofisticada tarea multidisciplinar dentro de la inteligencia artificial (IA) que entre la visión por ordenador (CV) y el procesamiento del Procesamiento del Lenguaje Natural (PLN). Mientras que los sistemas tradicionales de visión por ordenador se centran en reconocer objetos o clasificar imágenes, los sistemas VQA están diseñados para para dar una respuesta en lenguaje natural a una pregunta concreta basándose en el contenido visual de una imagen. Por ejemplo, dada una foto de una calle y la pregunta "¿De qué color es el coche de la izquierda? la imagen, localiza el objeto concreto, determina sus atributos y formula una respuesta textual correcta. Esta Esta capacidad de razonar a través de diferentes modalidades de datos convierte a VQA en un componente fundamental de la IA multimodal avanzada. multimodal avanzada.
La arquitectura de un sistema VQA suele constar de tres etapas principales: extracción de características, fusión multimodal y generación de respuestas. generación de respuestas. Inicialmente, el sistema utiliza modelos de aprendizaje profundo para procesar las entradas. Un modelo de visión, como una red neuronal convolucional (CNN) o un transformador de visión (ViT), extrae características visuales de la imagen. Simultáneamente, la pregunta de texto se tokeniza y se convierte en mediante modelos lingüísticos.
El paso crítico es la fusión de estos dos flujos de información. Los sistemas modernos suelen utilizar un mecanismo de atención, un concepto popularizado el artículo de investigación "Attention Is All You Need", para alinear las palabras del texto con las regiones correspondientes de la imagen. Esto permite que el modelo "mire" la parte relevante de la imagen (por ejemplo, el coche) al procesar la palabra "color". Por último, el modelo predice una respuesta, De hecho, trata el problema como una tarea de clasificación especializada sobre un conjunto de posibles respuestas. El entrenamiento de estos requiere una gran cantidad de datos de entrenamiento anotados, como como el conjunto de datos VQA, que contiene millones de tripletas imagen-pregunta-respuesta. imagen-pregunta-respuesta.
Aunque los sistemas VQA son complejos, el componente visual suele basarse en sólidas capacidades de detección. Puede ver cómo un modelo modelo como YOLO11 extrae los datos fundamentales de los objetos:
from ultralytics import YOLO
# Load the official YOLO11 model to identify scene elements
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects
# In a VQA pipeline, these detections provide the "visual context"
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results to verify what objects (e.g., 'bus', 'person') were found
results[0].show()
La tecnología VQA está transformando las industrias al permitir que las máquinas comprendan el contexto de una manera similar a la humana.
Para entender bien el concepto de VQA, conviene distinguirlo de otros términos similares en el ámbito del aprendizaje automático:
El desarrollo de VQA se basa en marcos de código abierto como PyTorch y TensorFlowy sigue evolucionando con el auge de los modelos de grandes lenguajes (LLM) en los procesos de visión.