Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Visual Question Answering (VQA)

Explora la respuesta visual a preguntas (VQA) en la intersección de la visión artificial y el NLP. Aprende cómo Ultralytics YOLO26 potencia VQA para aplicaciones en tiempo real e IA multimodal.

Visual Question Answering (VQA) es una tarea sofisticada de inteligencia artificial que se sitúa en la intersección de la Visión por Computador (CV) y el Procesamiento de Lenguaje Natural (NLP). A diferencia de la clasificación de imágenes tradicional, que asigna una única etiqueta a una imagen, los sistemas VQA están diseñados para responder preguntas abiertas en lenguaje natural sobre el contenido visual de una imagen. Por ejemplo, ante la fotografía de una cocina, un usuario podría preguntar: "¿Está encendida la cocina?" o "¿Cuántas manzanas hay en el bol?". Para responder correctamente, el modelo debe comprender la semántica del texto, identificar los objetos relevantes en la escena y razonar sobre sus atributos y relaciones espaciales.

Esta capacidad convierte a VQA en un componente fundamental de la IA multimodal moderna, ya que requiere el procesamiento simultáneo de tipos de datos dispares. La arquitectura suele incluir un codificador de visión, como una Red Neuronal Convolucional (CNN) o un Vision Transformer (ViT), para extraer características de la imagen, y un codificador de texto para procesar la consulta lingüística. Los sistemas avanzados utilizan un mecanismo de atención para alinear los conceptos textuales con regiones específicas de la imagen, lo que permite a la IA "mirar" las partes relevantes de la foto antes de generar una respuesta.

Link to this sectionAplicaciones en el mundo real e importancia#

La capacidad de consultar datos visuales de forma dinámica ha dado lugar a aplicaciones transformadoras en diversos sectores, mejorando la automatización y la accesibilidad.

  • Tecnología de asistencia: VQA es vital para las aplicaciones que apoyan a las personas con discapacidad visual. Herramientas como Be My Eyes pueden aprovechar VQA para permitir que los usuarios tomen una foto de su entorno y hagan preguntas como: "¿Es este champú o acondicionador?" o "¿Es seguro cruzar la calle?". Esto promueve una mayor independencia al convertir la información visual en respuestas audibles.
  • Diagnóstico médico: En el campo de la IA en la atención sanitaria, los sistemas VQA ayudan a los radiólogos analizando imágenes médicas. Un profesional podría consultar a un sistema sobre una radiografía con preguntas como: "¿Hay indicios de fractura en el cuadrante superior izquierdo?". Investigadores de los National Institutes of Health (NIH) han explorado VQA para agilizar la toma de decisiones clínicas y reducir los errores de diagnóstico.
  • Vigilancia inteligente: Los sistemas de seguridad modernos utilizan IA para seguridad para analizar horas de grabación de vídeo. En lugar de una revisión manual, los operadores pueden preguntar: "¿Entró un camión rojo en el muelle de carga después de medianoche?". VQA permite la detección de anomalías rápida basada en criterios específicos en lugar de alertas de movimiento genéricas.

Link to this sectionEl papel de la detección de objetos en VQA#

Aunque algunos modelos VQA se entrenan de extremo a extremo, muchos dependen de una base sólida de detección de objetos para identificar primero los elementos de la escena. Localizar los objetos con precisión proporciona el contexto necesario para el motor de razonamiento. El modelo Ultralytics YOLO26 sirve como base excelente para estos procesos debido a su alta precisión y rendimiento en tiempo real.

Por ejemplo, los desarrolladores pueden utilizar YOLO26 para extraer clases de objetos y cuadros delimitadores, que luego se introducen en un Modelo de Lenguaje Extenso (LLM) o un módulo de razonamiento especializado para responder a las consultas de los usuarios. La gestión de los conjuntos de datos para entrenar estas bases de detección suele optimizarse utilizando la Ultralytics Platform, que simplifica la anotación y el entrenamiento en la nube.

El siguiente ejemplo en Python demuestra cómo utilizar YOLO26 para extraer el contexto visual (objetos y sus ubicaciones) de una imagen, que es el paso principal en un flujo de trabajo VQA:

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference to detect objects, providing context for VQA
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display detected classes (e.g., 'bus', 'person') to verify scene understanding
for result in results:
    result.show()  # Visualize the detections

Link to this sectionDiferenciación de VQA de conceptos relacionados#

Resulta útil diferenciar VQA de tareas similares de visión y lenguaje para comprender su alcance único.

  • VQA frente a subtitulado de imágenes: El subtitulado de imágenes genera una descripción estática y genérica de toda una imagen (por ejemplo, "Un perro jugando en el parque"). VQA es interactivo y específico; proporciona una respuesta dirigida a la pregunta de un usuario en lugar de un resumen general.
  • VQA frente a conexión visual (Visual Grounding): La conexión visual se centra en localizar un objeto específico mencionado en una frase de texto dibujando un cuadro delimitador a su alrededor. VQA va más allá al analizar los atributos, acciones o cantidades de los objetos encontrados.
  • VQA frente a OCR: Aunque el Reconocimiento Óptico de Caracteres (OCR) sirve estrictamente para extraer texto de imágenes, VQA puede incorporar OCR para responder preguntas como "¿Qué dice la señal de tráfico?". Sin embargo, la función principal de VQA incluye una comprensión de la escena más amplia, más allá de la mera lectura de texto.

Los investigadores siguen haciendo avanzar el campo utilizando puntos de referencia a gran escala, como el VQA Dataset, que ayuda a los modelos a generalizar a partir de millones de pares de imagen-pregunta. A medida que el hardware mejora, permitiendo una latencia de inferencia más rápida, VQA es cada vez más viable para aplicaciones móviles y de borde (edge) en tiempo real.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático