Изучите языковые модели Vision Language Models (VLM) с Ultralytics. Узнайте, как они соединяют компьютерное зрение и LLM для VQA и обнаружения открытого словаря с помощью Ultralytics .
Модель визуального языка (VLM) — это тип искусственного интеллекта, который может одновременно обрабатывать и интерпретировать как визуальную информацию (изображения или видео), так и текстовую информацию. В отличие от традиционных моделей компьютерного зрения, которые фокусируются исключительно на пиксельных данных, или крупных языковых моделей (LLM), которые понимают только текст, VLM устраняют разрыв между этими двумя модальностями. Обучаясь на огромных наборах данных, содержащих пары изображений и текстов, эти модели учатся связывать визуальные особенности с лингвистическими концепциями, что позволяет им описывать изображения, отвечать на вопросы о визуальных сценах и даже выполнять команды на основе того, что они «видят».
В своей основе VLM обычно состоят из двух основных компонентов: кодировщика изображений и кодировщика текста. Кодировщик изображений обрабатывает изображения для извлечения карт признаков и визуальных представлений, а кодировщик текста обрабатывает лингвистический ввод. Затем эти отдельные потоки данных объединяются с помощью механизмов, таких как перекрестное внимание, для выравнивания визуальной и текстовой информации в общем пространстве встраивания.
Последние достижения в 2024 и 2025 годах привели к появлению более унифицированных архитектур, в которых один трансформаторный массив обрабатывает обе модальности. Например, такие модели, как Google 2 , демонстрируют, насколько эффективная интеграция этих потоков может повысить производительность при решении сложных задач рассуждения. Такое согласование позволяет модели понимать контекст, например, распознавать, что слово «яблоко» относится к фрукту на изображении продуктового магазина, но к технологической компании на логотипе.
Способность понимать мир с помощью зрения и языка открывает широкие возможности для применения в различных отраслях:
Чтобы понять специфическую роль VLM, полезно отличать их от других категорий ИИ:
Современные VLM позволяют осуществлять обнаружение с «открытым словарем», при котором detect можно detect с помощью текстовых подсказок свободной формы, а не заранее определенных классов. Это ключевая особенность таких моделей, как Ultralytics YOLO, которая позволяет динамически определять классы без повторного обучения.
Следующий пример демонстрирует, как использовать ultralytics пакет для detect объектов,
описанных текстом:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Несмотря на свою мощность, языковые модели Vision сталкиваются со значительными проблемами. Одной из основных проблем является галлюцинация, когда модель с уверенностью описывает объекты или текст на изображении, которых там просто нет. Исследователи активно работают над такими методами, как обучение с подкреплением на основе обратной связи от человека (RLHF) , чтобы улучшить обоснованность и точность.
Еще одной проблемой являются вычислительные затраты. Для обучения этих массивных моделей требуются значительные GPU . Однако появление эффективных архитектур, таких как Ultralytics , помогает внедрить передовые возможности машинного зрения в периферийные устройства. В будущем мы ожидаем, что VLM будут играть ключевую роль в роботизированных агентах, позволяя роботам перемещаться и манипулировать объектами на основе сложных вербальных инструкций.
Для тех, кто интересуется теоретическими основами, оригинальная статья CLIP от OpenAI дает отличное представление о контрастном предварительном обучении язык-изображение. Кроме того, чтобы следить за быстрым развитием этих архитектур, необходимо быть в курсе статей конференции CVPR. Чтобы поэкспериментировать с обучением собственных моделей зрения, вы можете использовать Ultralytics для оптимизированного управления наборами данных и развертывания моделей .