Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Respuesta visual a preguntas (VQA)

Descubra Visual Question Answering (VQA): cómo la IA multimodal combina la visión por ordenador y la PNL para responder a preguntas basadas en imágenes, con métodos clave y casos de uso en el mundo real.

La respuesta a preguntas visuales (VQA) es una tarea multidisciplinar compleja que se encuentra en la intersección entre la visión artificial (CV) y el procesamiento del lenguaje natural (NLP). A diferencia de la clasificación de imágenes estándar, en la que un sistema simplemente asigna una etiqueta a una imagen, los sistemas VQA están diseñados para responder a preguntas abiertas sobre una imagen utilizando lenguaje natural. Por ejemplo, si se le presenta una foto de una escena callejera , un usuario podría preguntar: «¿De qué color es el coche que está junto a la boca de incendios?». Para responder correctamente, la IA debe comprender la pregunta, localizar los objetos mencionados (coche, boca de incendios), comprender su relación espacial (junto a ) e identificar el atributo específico (color).

Esta capacidad convierte a VQA en una piedra angular de la IA multimodal moderna, ya que requiere un modelo para razonar con diferentes tipos de datos simultáneamente. El sistema suele utilizar un codificador de visión, como una red neuronal convolucional (CNN) o un transformador de visión (ViT), para interpretar las características visuales, y un codificador de texto para procesar la consulta lingüística. A continuación, estas entradas se combinan mediante técnicas de fusión , a menudo aprovechando un mecanismo de atención para centrarse en las partes relevantes de la imagen que se corresponden con las palabras de la pregunta.

Aplicaciones en el mundo real

La capacidad de consultar datos visuales de forma dinámica abre importantes posibilidades en diversos sectores.

  • Tecnología de asistencia para usuarios con discapacidad visual: VQA es una tecnología fundamental para aplicaciones de accesibilidad como Be My Eyes. Al integrar VQA, estas aplicaciones permiten a los usuarios apuntar con la cámara de su smartphone a su entorno y hacer preguntas como «¿Esta botella es de champú o acondicionador?» o «¿El semáforo del paso de peatones está en verde?». El sistema procesa la transmisión de vídeo en directo y proporciona una respuesta de audio, lo que fomenta una mayor independencia.
  • Vigilancia y seguridad inteligentes: en el campo de la IA aplicada a la seguridad, los operadores a menudo tienen que revisar horas y horas de grabaciones. En lugar de revisarlas manualmente, un sistema habilitado para VQA permite al personal de seguridad realizar consultas naturales como «¿Entró un camión rojo en el muelle de carga después de medianoche?» o «¿Cuántas personas llevan cascos de seguridad?». Esto agiliza el proceso de detección de anomalías y mejora los tiempos de respuesta .

Cómo se relaciona VQA con la detección de objetos

Aunque existen modelos VQA de extremo a extremo, muchos procesos prácticos se basan en una detección de objetos robusta como paso fundamental. Un detector identifica y localiza los objetos, lo que proporciona el contexto necesario para el motor de respuesta.

Por ejemplo, se puede utilizar YOLO26 para extraer clases y ubicaciones de objetos, que luego pueden introducirse en un modelo de lenguaje o un módulo de razonamiento especializado.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

Distinguir VQA de términos relacionados

Es importante diferenciar la VQA de otras tareas relacionadas con el lenguaje visual para comprender su función específica.

  • VQA frente a subtitulación de imágenes: La subtitulación de imágenes genera una descripción genérica de toda una imagen (por ejemplo, «Un perro jugando en la hierba»). VQA es más específico e interactivo; responde a una pregunta concreta en lugar de proporcionar un resumen amplio.
  • VQA frente a Visual Grounding: El Visual Grounding se centra en localizar un objeto específico mencionado en una frase (por ejemplo, dibujar un cuadro delimitador alrededor de «el hombre alto»). El VQA va un paso más allá, ya que no solo localiza el objeto, sino que también analiza sus atributos o relaciones para responder a una consulta.
  • VQA frente a reconocimiento óptico de caracteres (OCR): El OCR extrae texto de imágenes. Aunque el VQA puede utilizar el OCR para responder a una pregunta como «¿Qué pone en el cartel ?», el VQA es una capacidad más amplia que abarca la comprensión de objetos, acciones y escenas, no solo la lectura de texto.

La investigación moderna suele utilizar conjuntos de datos a gran escala, como el conjunto de datos VQA, para entrenar estos modelos, lo que les ayuda a generalizar a través de millones de pares de imágenes y preguntas. A medida que los grandes modelos de lenguaje (LLM) siguen evolucionando, las capacidades VQA se integran cada vez más directamente en los modelos básicos, difuminando las líneas entre las tareas de visión pura y las de lenguaje puro.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora