Узнайте, как настройка визуальных инструкций позволяет языковым моделям Vision выполнять указания человека. Научитесь создавать сложные рабочие процессы на базе ИИ с помощью Ultralytics .
Настройка с помощью визуальных инструкций — это революционный метод машинного обучения, который расширяет возможности традиционных методов обработки естественного языка на мультимодальную область. Обучая модель «Vision Language Model» (VLM) выполнению явно сформулированных человеческих указаний на основе изображений или видео, разработчики могут создавать ИИ-помощников, способных понимать и анализировать визуальный контент. В отличие от стандартных моделей классификации изображений, которые выдают заранее определенную категорию, настройка визуальных инструкций позволяет моделям выполнять сложные задачи с открытым исходом — такие как описание сцены, чтение текста на изображении или ответы на конкретные вопросы о пространственных отношениях. Это устраняет разрыв между текстовыми большими языковыми моделями (LLM) и традиционными конвейерами компьютерного зрения.
Чтобы понять, что такое настройка визуальных инструкций, полезно отличать её от близких по сути понятий в экосистеме искусственного интеллекта:
Процесс обучения, как правило, включает в себя тонкую настройку предварительно обученной мультимодальной базовой модели с использованием обширных наборов данных, представленных в виде триплетов «изображение-текст-инструкция». Новаторские исследования arXiv по настройке с помощью визуальных инструкций, такие как проект LLaVA (Large Language-and-Vision Assistant), продемонстрировали, что эти модели могут достигать замечательных возможностей «zero-shot». Сегодня крупные организации в области ИИ используют эту технику для работы передовых моделей, включая OpenAI GPT-4o, Anthropic 3.5 Sonnet и Google Gemini.
Благодаря согласованию мультимодальных архитектур глубокого обучения с намерениями человека, настройка визуальных инструкций открывает возможности для создания высокоинтерактивных приложений в различных отраслях:
Для создания систем, использующих эти возможности, разработчики часто прибегают к надежным моделям распознавания объектов, чтобы извлечь структурный контекст из изображений перед передачей этих данных в VLM. Используя документациюPyTorch или моделиTensorFlow , разработчики могут создавать гибридные конвейеры.
Например, можно использоватьYOLO Ultralytics для быстрого анализа сцены и генерации обоснованного текстового запроса для последующего VLM:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
Управление сложными мультимодальными наборами данных, необходимыми для приложений нового поколения, может представлять собой сложную задачу. Ultralytics упрощает этот процесс, предоставляя комплексные инструменты для аннотирования наборов данных, обучения в облаке и беспроблемного развертывания моделей. Независимо от того, читаете ли вы передовые статьи в цифровой библиотеке ACM или архивах компьютерного зрения IEEE Xplore, переход к настроенным на инструкции высокопроизводительным системам компьютерного зрения представляет собой передовую технологию в области искусственного интеллекта. Сочетая восприятие YOLO26 с настроенными моделями рассуждений, организации могут развертывать невероятно надежные ИИ-агенты.
Начните свой путь в будущее машинного обучения