Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мультимодальный ИИ

Откройте для себя Multimodal AI — область, где системы обрабатывают и понимают разнообразные данные, такие как текст, изображения и аудио. Узнайте, как это работает, и изучите ключевые приложения.

Мультимодальный ИИ относится к сложному классу систем искусственного интеллекта (ИИ), предназначенных для одновременной обработки, интерпретации и синтеза информации из нескольких различных типов данных, или «модальностей». В отличие от традиционных одномодальных систем, специализирующихся на одном источнике входных данных, таких как обработка естественного языка (NLP) для текста или компьютерное зрение (CV) для изображений, мультимодальный ИИ имитирует человеческое восприятие, интегрируя различные потоки данных. Это может включать в себя объединение визуальных данных (изображения, видео) с лингвистическими данными (текст, речевой аудиосигнал) и сенсорной информацией (LiDAR, радар, тепловое излучение). Используя эти объединенные входы, эти модели достигают более глубокого, более контекстно-ориентированного понимания сложных реальных сценариев, приближаясь к возможностям искусственного общего интеллекта (AGI).

Основные механизмы мультимодальных систем

Сила мультимодального ИИ заключается в его способности отображать различные типы данных в общее математическое пространство. Этот процесс обычно включает в себя три ключевых этапа: кодирование, слияние и декодирование.

  1. Извлечение признаков: специализированные нейронные сети (NN) кодируют каждую модальность. Например, сверточная нейронная сеть (CNN) может обрабатывать изображение для извлечения визуальных признаков, а трансформер обрабатывает сопутствующий текст.
  2. Внедрение и выравнивание: извлеченные характеристики преобразуются в внутренние вложения— высокоразмерные числовые векторы. Модель выравнивает эти векторы таким образом, чтобы семантически схожие понятия (например, фотография кошки и слово «кошка») располагались рядом друг с другом в векторном пространстве. Часто это достигается с помощью таких методов, как контрастивное обучение, широко используемое в таких моделях, как CLIP от OpenAI.
  3. Слияние: система объединяет выровненные данные с помощью методов слияния. Усовершенствованные механизмы внимания позволяют модели динамически оценивать важность одной модальности по отношению к другой в зависимости от контекста, что подробно описано в основополагающей статье «Внимание — это все, что вам нужно».

Применение в реальном мире

Мультимодальный искусственный интеллект революционизирует отрасли, решая проблемы, которые требуют целостного видения окружающей среды.

  • Визуальный ответ на вопрос (VQA): Это приложение позволяет пользователям запрашивать изображения с помощью естественного языка. Например, пользователь с нарушениями зрения может представить фотографию кладовой и спросить: «Есть ли банка супа на верхней полке?» Система использует обнаружение объектов для идентификации предметов и NLP для понимания конкретного вопроса, предоставляя аудиоответ.
  • Автономные транспортные средства: Автомобили с автономным управлением используют объединение данных с датчиков для безопасного перемещения. Они сочетают визуальную информацию с камер с данными о глубине от LiDAR и данными о скорости от радара. Такой мультимодальный подход гарантирует, что даже если один датчик выйдет из строя (например, камера ослепнет от яркого солнечного света), система все равно detect и обеспечивать безопасность на дороге.
  • ИИ в здравоохранении: современные диагностические инструменты объединяют анализ медицинских изображений (рентген, МРТ) с неструктурированными текстовыми данными, такими как клинические записи и история болезни пациента. Анализируя эти данные вместе, врачи могут получить более точную оценку рисков и составить индивидуальные планы лечения.

Обнаружение открытого словаря с помощью Ultralytics

Практическим примером мультимодального ИИ является обнаружение объектов с открытым словарем, когда модель обнаруживает объекты на основе произвольных текстовых подсказок, а не заранее обученного списка классов. Модель Ultralytics YOLO демонстрирует эту возможность, устраняя разрыв между лингвистическими командами и визуальным распознаванием.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the multimodal detection results
results[0].show()

Дифференциация ключевых терминов

Чтобы лучше понять общую картину, полезно отличать «мультимодальный ИИ» от смежных понятий:

  • Мультимодальное обучение: это относится к академической дисциплине и процессу обучения алгоритмов на смешанных типах данных. Мультимодальный ИИ — это практическое применение или результат этого процесса обучения.
  • Крупные языковые модели (LLM): Традиционные LLM являются одномодальными и обрабатывают только текст. Хотя многие из них эволюционируют в модели «зрение-язык» (VLM), стандартная LLM по своей сути не обрабатывает визуальные данные без дополнительных адаптеров.
  • Специализированные модели зрительного восприятия: такие модели, как передовая Ultralytics , являются высокоспециализированными экспертами в области визуальных задач. В то время как общая мультимодальная модель может описывать сцену в целом, специализированные модели превосходны в высокоскоростной и точной сегментации экземпляров и обработке в реальном времени на периферийном оборудовании.

Будущие направления

В этой области наблюдается тенденция к созданию базовых моделей, которые с самого начала являются мультимодальными, а не представляют собой соединение отдельных сетей. Исследования таких организаций, как Google , продолжают расширять границы восприятия мира искусственным интеллектом . В Ultralytics выпуск YOLO26 знаменует собой новый стандарт эффективности в компоненте зрения этих конвейеров, обеспечивая, чтобы визуальные «глаза» мультимодальных систем были быстрее и точнее , чем когда-либо прежде.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас