Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Visual Instruction Tuning

Узнай, как визуальная настройка инструкций позволяет мультимодальным моделям (VLM) следовать указаниям человека. Научись создавать продвинутые AI-рабочие процессы с помощью Ultralytics YOLO26.

Визуальная настройка инструкций — это трансформирующий метод машинного обучения, который переносит традиционные методы обработки естественного языка в мультимодальную область. Обучая Vision Language Model (VLM) следовать четким указаниям человека на основе входных изображений или видео, разработчики могут создавать AI-ассистентов, способных понимать визуальный контент и рассуждать о нем. В отличие от стандартных моделей image classification, которые выдают предопределенную категорию, визуальная настройка инструкций позволяет моделям выполнять сложные задачи открытого типа — например, описывать сцену, читать текст на изображении или отвечать на специфические вопросы о пространственных отношениях. Это преодолевает разрыв между текстовыми large language models (LLMs) и традиционными конвейерами computer vision.

Link to this sectionПонимание концепции и различий#

Чтобы понять суть визуальной настройки инструкций, полезно отличить её от тесно связанных концепций в экосистеме AI:

  • Instruction Tuning: Обычно относится к настройке текстовых LLM для безопасного и точного следования намерениям человека. Визуальная настройка инструкций применяет ту же методологию, но включает изображения в промпт и ожидаемый результат.
  • Visual Prompting: Обычно предполагает взаимодействие с AI с использованием визуальных подсказок — например, рисование BBox, размещение точки или маскирование области на изображении — для управления фокусом модели. Напротив, визуальная настройка инструкций в значительной степени опирается на команды на естественном языке в сочетании с визуальными данными.

Процесс обучения обычно включает fine-tuning предобученной мультимодальной базовой модели с использованием обширных наборов данных, отформатированных как триплеты «изображение-текст-инструкция». Пионерские arXiv исследования по визуальной настройке инструкций, такие как проект LLaVA (Large Language-and-Vision Assistant), продемонстрировали, что эти модели способны достигать замечательных возможностей zero-shot. Сегодня крупные AI-организации используют эту технику для обеспечения работы передовых моделей, включая OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet и Google DeepMind Gemini.

Link to this sectionРеальные применения#

Согласовывая архитектуры multimodal deep learning с намерениями человека, визуальная настройка инструкций открывает возможности для высокоинтерактивных приложений в различных отраслях:

  • AI in Healthcare Diagnostics: Медицинские работники могут использовать модели с настроенными инструкциями для Visual Question Answering (VQA). Рентгенолог может отправить системе рентгеновский снимок с инструкцией: «Выдели и объясни любые признаки пневмонии в нижней левой доле», позволяя AI выступить в роли помощника по диагностике.
  • AI in Manufacturing Quality Control: Вместо того чтобы обучать жесткую модель детекции дефектов с нуля, операторы могут давать указания такой системе технического зрения, как Microsoft Florence-2, с помощью команды: «Выяви любые микроскопические царапины или вмятины на этом недавно изготовленном металлическом корпусе».

Link to this sectionСоздание рабочих процессов компьютерного зрения#

Для создания систем, использующих эти возможности, разработчики часто полагаются на надежные модели object detection для извлечения структурного контекста из изображений перед передачей этих данных в VLM. Используя PyTorch multi-modal documentation или TensorFlow vision models, разработчики могут создавать гибридные конвейеры.

Например, ты можешь использовать модель Ultralytics YOLO для быстрого восприятия сцены и создания осознанного языкового промпта для последующей VLM:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Управление сложными мультимодальными наборами данных, необходимыми для этих приложений следующего поколения, может быть непростой задачей. Ultralytics Platform упрощает этот процесс, предоставляя комплексные инструменты для аннотации данных, облачного обучения и беспрепятственного развертывания моделей. Читаешь ли ты передовые статьи в ACM digital library или архивах IEEE Xplore computer vision, переход к высокопроизводительным системам технического зрения с настройкой инструкций представляет собой передний край искусственного интеллекта. Соединяя восприятие YOLO26 с моделями рассуждения, организации могут развертывать невероятно надежных AI-агентов.

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения