Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мультимодальная модель

Узнайте, как мультимодальные модели AI объединяют текст, изображения и другие данные для создания надежных, универсальных систем для реальных приложений.

Мультимодальная модель - это усовершенствованная система искусственного интеллекта (ИИ) способная обрабатывать, интерпретировать и интегрировать информацию из нескольких различных типов данных, или "модальностей", одновременно. В отличие от традиционных унимодальных систем, специализирующихся на одной области, таких как обработка естественного языка (NLP) для текстов или компьютерное зрение (CV) для изображения, мультимодальные модели могут анализировать текст, изображения, аудио-, видео- и сенсорные данные вместе. Такая конвергенция позволяет модели развивать более полное и человекоподобное понимание мира, поскольку она может устанавливать корреляции между визуальными сигналами и лингвистическими описаниями. Эта способность является основополагающей для разработки будущих искусственного интеллекта общего назначения (ИОНИ) и в настоящее время является движущей силой инноваций в самых разных областях - от робототехники до автоматизированного создания контента.

Основные механизмы

Эффективность мультимодальных моделей зависит от их способности отображать различные типы данных в общее семантическое пространство. Этот процесс обычно начинается с генерации вкраплений - числовыхпредставлений данных, которые которые отражают их основной смысл. Обучаясь на массивных массивах данных парных примеров, таких как изображения с подписями, модель модель учится выравнивать вложение изображения "собаки" с текстовым вложением слова "собака".

Ключевые архитектурные инновации делают эту интеграцию возможной:

  • Архитектура трансформера: Первоначально Предложена в статье "Attention Is All You Need", трансформаторы используют механизмы внимания для динамически оценивать важность различных частей входного сигнала. Это позволяет модели фокусироваться на соответствующих визуальных областях при обработке конкретного текстового запроса.
  • Слияние данных: Необходимо эффективно комбинировать информацию из разных источников. Стратегии варьируются от раннего объединения (объединение исходных данных) до позднего объединения (объединение модельных решений). Современные фреймворки, такие как PyTorch и TensorFlow предоставляют гибкие инструменты, необходимые для реализации этих сложных архитектур.

Применение в реальном мире

Мультимодальные модели открыли новые возможности, которые ранее были невозможны при использовании систем с одной модальностью.

  • Визуальные ответы на вопросы (Visual Question Answering, VQA): Эти системы могут анализировать изображение и отвечать на вопросы о нем на естественном языке. Например, слабовидящий пользователь может спросить: "Безопасно ли ходить по пешеходному переходу?", и модель обрабатывает видеоизображение (визуальное) и вопрос (текстовый), чтобы предоставить аудиоответ. и вопрос (текст), чтобы выдать аудиоответ.
  • Генерация текста в изображение: Ведущий сайт генеративные инструменты ИИ, такие как DALL-E 3 от OpenAI, принимают описательные текстовые подсказки и генерируют высокоточные изображения. Это требует глубокого понимания того, как текстовые понятия преобразуются в визуальные атрибуты такие как текстура, освещение и композиция.
  • Обнаружение объектов с открытым словарем: Такие модели, как Ultralytics YOLO, позволяют пользователям detect объекты используя произвольные текстовые подсказки, а не фиксированный список классов. Это позволяет преодолеть разрыв между лингвистическими командами и визуальным распознаванием.

Следующий пример демонстрирует, как использовать ultralytics библиотека для работы с открытым словарем обнаружения, когда модель обнаруживает объекты на основе пользовательских текстовых данных:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Отличия от родственных терминов

Важно отличать "Мультимодальную модель" от смежных понятий в глоссарии ИИ:

  • Мультимодальное обучение: Этот относится к процессу и методам машинного обучения, используемым для подготовки этих систем. Мультимодальная модель - это результат успешного мультимодального обучения.
  • Большие языковые модели (БЯМ): Хотя традиционные LLM обрабатывают только текст, многие из них превращаются в зрительно-языковые модели (VLM). Однако стандартная LLM является унимодальной, в то время как мультимодальная модель явно рассчитана на несколько типов входных данных.
  • Модели фундамента: Это Более широкая категория, описывающая крупномасштабные модели, адаптируемые к множеству последующих задач. Мультимодальная модель часто является но не все модели основы являются многомодальными.

Будущее мультимодального искусственного интеллекта

В этой области быстро развиваются модели, способные обрабатывать непрерывные потоки аудио, видео и текста в в режиме реального времени. Исследования таких организаций, как Google DeepMind, продолжают расширять границы восприятия этих систем. В Ultralytics, в то время как наш флагманский YOLO11 модели устанавливают стандарты скорости и точности в обнаружения объектов, мы также внедряем инновации с помощью архитектуры, такие как YOLO26, которые еще больше повышают эффективность как для граничных, так и для облачных приложений. В перспективе комплексная Ultralytics Platform обеспечит единую среду для управления данными, обучения и развертывания для этих все более сложных рабочих процессов ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас