Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Визуальные ответы на вопросы (VQA)

Откройте для себя визуальные ответы на вопросы (VQA): как мультимодальный ИИ объединяет компьютерное зрение и NLP для ответов на вопросы, основанные на изображениях, с ключевыми методами и реальными примерами использования.

Визуальный ответ на вопрос (VQA) — это сложная междисциплинарная задача, которая находится на стыке компьютерного зрения (CV) и обработки естественного языка (NLP). В отличие от стандартной классификации изображений, где система просто присваивает метку картинке, системы VQA предназначены для ответа на открытые вопросы об изображении с использованием естественного языка. Например, если пользователю предъявить фотографию уличной сцены, он может спросить: «Какого цвета автомобиль рядом с пожарным гидрантом?» Чтобы ответить правильно, ИИ должен понять вопрос, найти упомянутые объекты (автомобиль, пожарный гидрант), понять их пространственное расположение (рядом с) и определить конкретный атрибут (цвет).

Эта способность делает VQA краеугольным камнем современного мультимодального ИИ, поскольку она требует от модели одновременного анализа различных типов данных. Система обычно использует кодировщик зрения, такой как сверточная нейронная сеть (CNN) или трансформер зрения (ViT), для интерпретации визуальных характеристик, а также текстовый кодер для обработки лингвистического запроса. Затем эти входные данные объединяются с помощью методов слияния, часто с использованием механизма внимания, чтобы сосредоточиться на соответствующих частях изображения, которые соответствуют словам в вопросе.

Применение в реальном мире

Возможность динамического запроса визуальных данных открывает значительные возможности в различных отраслях.

  • Вспомогательные технологии для пользователей с нарушениями зрения: VQA — важнейшая технология для приложений, обеспечивающих доступность, таких как Be My Eyes. Благодаря интеграции VQA эти приложения позволяют пользователям направлять камеру смартфона на окружающую обстановку и задавать вопросы, например: «Это бутылка шампуня или кондиционера?» или «Светофор на пешеходном переходе зеленый?». Система обрабатывает видео в реальном времени и дает ответ в аудиоформате, способствуя большей независимости пользователей.
  • Интеллектуальное наблюдение и безопасность: в области искусственного интеллекта в сфере безопасности операторам часто приходится просматривать часы видеозаписей. Вместо ручного просмотра система с поддержкой VQA позволяет сотрудникам службы безопасности задавать естественные вопросы, такие как «Въезжал ли красный грузовик на погрузочную платформу после полуночи?» или «Сколько человек носят каски?». Это упрощает процесс обнаружения аномалий и сокращает время реагирования .

Как VQA связано с обнаружением объектов

Хотя существуют сквозные модели VQA, многие практические конвейеры полагаются на надежное обнаружение объектов в качестве основополагающего шага. Детектор идентифицирует и локализует объекты, что обеспечивает необходимый контекст для механизма ответов.

Например, можно использовать YOLO26 для извлечения классов объектов и их местоположения, которые затем можно передать в языковую модель или специализированный модуль рассуждений.

from ultralytics import YOLO

# Load the YOLO26 model (latest generation)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
# VQA systems use these detections to understand scene content
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Print detected classes (e.g., 'bus', 'person') which answer "What is in the image?"
for r in results:
    print(r.boxes.cls)  # Class indices
    r.show()  # Visualize the context

Отличие VQA от смежных терминов

Важно отличать VQA от других задач, связанных с визуальным языком, чтобы понять его специфическую роль.

  • VQA и Image Captioning: Image Captioning генерирует общее описание всего изображения (например, «Собака играет на траве»). VQA является более конкретным и интерактивным; он отвечает на целевой вопрос, а не предоставляет общее резюме.
  • VQA против визуального ориентирования: визуальное ориентирование фокусируется на поиске конкретного объекта, упомянутого в фразе (например, нарисовать ограничительную рамку вокруг «высокого человека»). VQA идет еще дальше, не только находя объект, но и анализируя его атрибуты или отношения, чтобы ответить на запрос.
  • VQA против оптического распознавания символов (OCR): OCR извлекает текст из изображений. Хотя VQA может использовать OCR для ответа на вопрос типа «Что написано на табличке?», VQA — это более широкая функция, которая включает в себя понимание объектов, действий и сцен, а не только чтение текста.

Современные исследования часто используют крупномасштабные наборы данных, такие как набор данных VQA, для обучения этих моделей, помогая им обобщать миллионы пар изображений и вопросов. По мере продолжения развития крупных языковых моделей (LLM) возможности VQA все чаще интегрируются непосредственно в базовые модели, стирая границы между чисто визуальными и чисто языковыми задачами.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас