Глоссарий

Модель языка зрения (VLM)

Изучите языковые модели Vision Language Models (VLM) с Ultralytics. Узнайте, как они соединяют компьютерное зрение и LLM для VQA и обнаружения открытого словаря с помощью Ultralytics .

Модель визуального языка (VLM) — это тип искусственного интеллекта, который может одновременно обрабатывать и интерпретировать как визуальную информацию (изображения или видео), так и текстовую информацию. В отличие от традиционных моделей компьютерного зрения, которые фокусируются исключительно на пиксельных данных, или крупных языковых моделей (LLM), которые понимают только текст, VLM устраняют разрыв между этими двумя модальностями. Обучаясь на огромных наборах данных, содержащих пары изображений и текстов, эти модели учатся связывать визуальные особенности с лингвистическими концепциями, что позволяет им описывать изображения, отвечать на вопросы о визуальных сценах и даже выполнять команды на основе того, что они «видят».

Как работают языковые модели Vision

В своей основе VLM обычно состоят из двух основных компонентов: кодировщика изображений и кодировщика текста. Кодировщик изображений обрабатывает изображения для извлечения карт признаков и визуальных представлений, а кодировщик текста обрабатывает лингвистический ввод. Затем эти отдельные потоки данных объединяются с помощью механизмов, таких как перекрестное внимание, для выравнивания визуальной и текстовой информации в общем пространстве встраивания.

Последние достижения в 2024 и 2025 годах привели к появлению более унифицированных архитектур, в которых один трансформаторный массив обрабатывает обе модальности. Например, такие модели, как Google 2 , демонстрируют, насколько эффективная интеграция этих потоков может повысить производительность при решении сложных задач рассуждения. Такое согласование позволяет модели понимать контекст, например, распознавать, что слово «яблоко» относится к фрукту на изображении продуктового магазина, но к технологической компании на логотипе.

Применение в реальном мире

Способность понимать мир с помощью зрения и языка открывает широкие возможности для применения в различных отраслях:

Визуальный ответ на вопрос (VQA): VLM широко используются в медицинской диагностике для помощи радиологам. Врач может спросить систему: «Есть ли перелом на этом рентгеновском снимке?», и модель анализирует медицинское изображение , чтобы дать предварительную оценку, что снижает количество диагностических ошибок.
Интеллектуальный поиск в электронной коммерции: в розничной торговле VLM позволяют пользователям искать товары с помощью описаний на естественном языке в сочетании с изображениями. Покупатель может загрузить фотографию наряда знаменитости и спросить: «Найдите мне платье с таким же узором, но синего цвета», и система использует семантический поиск для нахождения точных совпадений.
Автоматическое создание подписей и доступность: VLM автоматически генерируют описательный альтернативный текст для изображений в Интернете, делая цифровой контент более доступным для пользователей с нарушениями зрения, которые полагаются на программы чтения с экрана.

Отличие VLM от смежных понятий

Чтобы понять специфическую роль VLM, полезно отличать их от других категорий ИИ:

VLM против LLM: Большая языковая модель (такая как GPT-4 только текстовые версии) обрабатывает только текстовые данные. Хотя она может генерировать творческие истории или код, она не может «видеть» изображение. VLM фактически дает LLM глаза.
YOLO LM против обнаружения объектов: Традиционные модели обнаружения объектов, такие как ранние версии YOLO , определяют, где находятся объекты и к какому классу они принадлежат (например, «Автомобиль: 99%»). VLM идет дальше, понимая взаимосвязи и атрибуты, такие как «красный спортивный автомобиль, припаркованный рядом с пожарным гидрантом».
VLM против мультимодального ИИ: Мультимодальный ИИ — это более широкий термин. Хотя все VLM являются мультимодальными (сочетают зрение и язык), не все мультимодальные модели являются VLM; некоторые могут сочетать аудио и текст (например, преобразование речи в текст) или видео и данные датчиков без языкового компонента.

Обнаружение с открытым словарем с помощью YOLO

Современные VLM позволяют осуществлять обнаружение с «открытым словарем», при котором detect можно detect с помощью текстовых подсказок свободной формы, а не заранее определенных классов. Это ключевая особенность таких моделей, как Ultralytics YOLO, которая позволяет динамически определять классы без повторного обучения.

Следующий пример демонстрирует, как использовать ultralytics пакет для detect объектов, описанных текстом:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Проблемы и будущие направления

Несмотря на свою мощность, языковые модели Vision сталкиваются со значительными проблемами. Одной из основных проблем является галлюцинация, когда модель с уверенностью описывает объекты или текст на изображении, которых там просто нет. Исследователи активно работают над такими методами, как обучение с подкреплением на основе обратной связи от человека (RLHF) , чтобы улучшить обоснованность и точность.

Еще одной проблемой являются вычислительные затраты. Для обучения этих массивных моделей требуются значительные GPU . Однако появление эффективных архитектур, таких как Ultralytics , помогает внедрить передовые возможности машинного зрения в периферийные устройства. В будущем мы ожидаем, что VLM будут играть ключевую роль в роботизированных агентах, позволяя роботам перемещаться и манипулировать объектами на основе сложных вербальных инструкций.

Для тех, кто интересуется теоретическими основами, оригинальная статья CLIP от OpenAI дает отличное представление о контрастном предварительном обучении язык-изображение. Кроме того, чтобы следить за быстрым развитием этих архитектур, необходимо быть в курсе статей конференции CVPR. Чтобы поэкспериментировать с обучением собственных моделей зрения, вы можете использовать Ultralytics для оптимизированного управления наборами данных и развертывания моделей .

Модель языка зрения (VLM)

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работают языковые модели Vision

Применение в реальном мире

Отличие VLM от смежных понятий

Обнаружение с открытым словарем с помощью YOLO

Проблемы и будущие направления

Читать больше в этой категории

Как улучшить mAP модели mAP небольших объектах: краткое руководство

Переосмысление мониторинга биоразнообразия с помощью компьютерного зрения

5 лучших советов по эффективному развертыванию YOLO26 на периферии и в облаке

Присоединяйтесь к сообществу Ultralytics