Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мультимодальный ИИ

Изучите мультимодальный ИИ и то, как он интегрирует текст и изображения для контекстного понимания. Научитесь использовать Ultralytics и модели с открытым словарем уже сегодня.

Мультимодальный ИИ относится к сложному классу систем искусственного интеллекта (ИИ), предназначенных для одновременной обработки, интерпретации и синтеза информации из нескольких различных типов данных, или «модальностей». В отличие от традиционных одномодальных систем, специализирующихся на одном источнике входных данных, таких как обработка естественного языка (NLP) для текста или компьютерное зрение (CV) для изображений, мультимодальный ИИ имитирует человеческое восприятие, интегрируя различные потоки данных. Эта интеграция может включать объединение визуальных данных (изображения, видео) с лингвистическими данными (текст, речевой аудио) и сенсорной информацией (LiDAR, радар, тепловая). Используя эти комбинированные входные данные, эти модели достигают более глубокого, более контекстно-зависимого понимания сложных реальных сценариев, приближаясь к широким возможностям искусственного общего интеллекта (AGI).

Как работают мультимодальные системы

Основная сила мультимодального ИИ заключается в его способности отображать различные типы данных в общее математическое пространство , где их можно сравнивать и комбинировать. Этот процесс обычно включает в себя три ключевых этапа: кодирование, выравнивание и слияние.

  1. Извлечение признаков: Специализированные нейронные сети обрабатывают каждую модальность независимо, чтобы выявить ключевые паттерны. Например, сверточная нейронная сеть (CNN) может извлекать визуальные признаки из фотографии, а трансформер обрабатывает сопровождающую подпись.
  2. Выравнивание и встраивание: извлеченные признаки преобразуются в высокоразмерные числовые векторы. Модель учится выравнивать эти векторы таким образом, чтобы семантически схожие концепции (например, изображение кошки и текстовое слово «кошка») располагались близко друг к другу в векторном пространстве. Часто это достигается с помощью таких техник, как контрастивное обучение, метод, широко используемый в таких моделях, как CLIP от OpenAI.
  3. Слияние данных: система объединяет выровненные данные с помощью передовых методов слияния. Современные архитектуры используют механизмы внимания для динамической оценки важности одной модальности по отношению к другой в зависимости от контекста, что позволяет модели сосредоточиться на тексте, когда изображение неоднозначно, или наоборот.

Применение в реальном мире

Мультимодальный ИИ открыл возможности, которые ранее были недостижимы с помощью одномодальных систем, стимулируя инновации в различных отраслях промышленности.

  • Визуальный ответ на вопрос (VQA): В этом приложении пользователь может представить изображение искусственному интеллекту и задать вопросы о нем на естественном языке. Например, пользователь с нарушениями зрения может загрузить фотографию кладовой и спросить: «У меня осталась паста?» Модель обрабатывает визуальный контент и текстовый запрос, чтобы дать конкретный ответ.
  • Автономные транспортные средства: Автомобили с автономным управлением в значительной степени полагаются на мультимодальные входные данные, комбинируя данные с камер, точечных облаков LiDAR и радаров для безопасного перемещения. Такая избыточность гарантирует, что в случае выхода из строя одного датчика (например, камеры, ослепленной солнечным бликом), другие датчики смогут поддерживать стандарты безопасности, определенные Обществом автомобильных инженеров (SAE).
  • Диагностика в здравоохранении: Передовые медицинские системы искусственного интеллекта анализируют медицинские изображения (такие как МРТ или рентгеновские снимки ) наряду с неструктурированными текстовыми данными из истории болезни пациента и генетическими данными. Такой комплексный подход помогает врачам ставить более точные диагнозы, что часто обсуждается в журнале Nature Digital Medicine.
  • Генеративный ИИ: инструменты, которые создают изображения на основе текстовых подсказок, такие как Stable Diffusion, полностью полагаются на способность модели понимать взаимосвязь между лингвистическими описаниями и визуальными текстурами.

Обнаружение открытого словаря с помощью Ultralytics

В то время как стандартные детекторы объектов полагаются на заранее определенные списки категорий, мультимодальные подходы, такие как YOLO, позволяют пользователям detect с помощью текстовых подсказок с открытым словарем. Это устраняет разрыв между лингвистическими командами и визуальным распознаванием в Ultralytics .

Следующий пример демонстрирует, как использовать ultralytics библиотека для работы с открытым словарем обнаружения, когда модель обнаруживает объекты на основе пользовательских текстовых данных:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Различение смежных терминов

Чтобы ориентироваться в современном мире машинного обучения, полезно отличать «мультимодальный ИИ» от связанных с ним концепций:

  • Мультимодальное обучение: это относится к академической дисциплине и методологии обучения алгоритмов на смешанных типах данных. «Мультимодальный ИИ» обычно относится к практическому применению или к полученной в результате системе.
  • Крупные языковые модели (LLM): Традиционные LLM являются одномодальными и обучаются исключительно на текстовых данных. Однако отрасль переходит к «крупным мультимодальным моделям» (LMM), которые могут обрабатывать изображения и текст в исходном виде. Эта тенденция поддерживается такими фреймворками, как PyTorch и TensorFlow.
  • Специализированные модели зрительного восприятия: такие модели, как ультрасовременная Ultralytics , являются высокоспециализированными экспертами в области визуальных задач. В то время как общая мультимодальная модель может описывать сцену в целом, специализированные модели превосходны в высокоскоростном, точном обнаружении объектов и обработке в реальном времени на периферийном оборудовании.

Перспективы на будущее

Траектория развития мультимодального ИИ указывает на создание систем, обладающих более широкими возможностями мышления. Благодаря успешному основанию языка на визуальной и физической реальности, эти модели выходят за рамки статистической корреляции и движутся к подлинному пониманию. Исследования таких учреждений, как Google и Стэнфордский центр исследований фундаментальных моделей, продолжают расширять границы восприятия машинами сложных сред.

В Ultralytics мы интегрируем эти достижения в Ultralytics , позволяя пользователям управлять данными, обучать модели и развертывать решения, которые используют весь спектр доступных модальностей, сочетая скорость YOLO26 с универсальностью мультимодальных входов.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас