Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Multimodal AI

Изучи мультимодальный ИИ и то, как он объединяет текст и зрение для контекстного понимания. Узнай, как использовать Ultralytics YOLO26 и модели с открытым словарем уже сегодня.

Мультимодальный ИИ относится к сложному классу систем искусственного интеллекта (ИИ), предназначенных для одновременной обработки, интерпретации и синтеза информации из нескольких различных типов данных, или «модальностей». В отличие от традиционных унимодальных систем, специализирующихся на одном источнике входных данных — например, обработке естественного языка (NLP) для текста или компьютерном зрении (CV) для изображений — мультимодальный ИИ имитирует человеческое восприятие путем интеграции разнообразных потоков данных. Эта интеграция может включать объединение визуальных данных (изображения, видео) с лингвистическими (текст, устная речь) и сенсорной информацией (LiDAR, радар, тепловизоры). Используя эти комбинированные входные данные, модели достигают более глубокого, контекстно-зависимого понимания сложных сценариев реального мира, приближаясь к широким возможностям искусственного общего интеллекта (AGI).

Link to this sectionКак работают мультимодальные системы#

Основная сила мультимодального ИИ заключается в способности отображать различные типы данных в общее математическое пространство, где их можно сравнивать и объединять. Этот процесс обычно включает три ключевых этапа: кодирование, выравнивание и слияние.

  1. Извлечение признаков: Специализированные нейронные сети независимо обрабатывают каждую модальность для выявления ключевых закономерностей. Например, сверточная нейронная сеть (CNN) может извлекать визуальные признаки из фотографии, в то время как Transformer обрабатывает сопутствующую подпись.

  2. Выравнивание и эмбеддинги: Извлеченные признаки преобразуются в многомерные числовые векторы. Модель учится выравнивать эти векторы так, чтобы семантически похожие понятия (например, изображение кошки и текстовое слово «кошка») находились близко друг к другу в векторном пространстве. Это часто достигается с помощью таких методов, как контрастивное обучение — подход, широко известный по таким моделям, как CLIP от OpenAI.

  3. Слияние данных: Система объединяет выровненные данные, используя продвинутые методы слияния. Современные архитектуры используют механизмы внимания для динамического взвешивания важности одной модальности по отношению к другой в зависимости от контекста, позволяя модели фокусироваться на тексте, когда изображение неоднозначно, или наоборот.

Link to this sectionРеальные приложения#

Мультимодальный ИИ открыл возможности, которые ранее были невозможны для систем с одной модальностью, стимулируя инновации в различных отраслях.

  • Визуальные ответы на вопросы (VQA): В этом приложении пользователь может предоставить ИИ изображение и задать по нему вопросы на естественном языке. Например, пользователь с нарушениями зрения может загрузить фотографию кладовой и спросить: «У меня осталась паста?». Модель обрабатывает визуальный контент и текстовый запрос, чтобы дать конкретный ответ.
  • Автономные транспортные средства: Беспилотные автомобили сильно зависят от мультимодальных входных данных, сочетая информацию от камер, облаков точек LiDAR и радаров для безопасного передвижения. Такое резервирование гарантирует, что если один датчик выйдет из строя (например, камеру ослепит солнечный блик), другие смогут поддерживать стандарты безопасности, определенные Обществом автомобильных инженеров (SAE).
  • Медицинская диагностика: Продвинутые медицинские ИИ-системы анализируют данные медицинской визуализации (такие как МРТ или рентгеновские снимки) наряду с неструктурированной текстовой историей болезни пациента и генетическими данными. Этот комплексный подход помогает врачам ставить более точные диагнозы, тема, часто обсуждаемая в Nature Digital Medicine.
  • Генеративный ИИ: Инструменты, которые создают изображения на основе текстовых запросов, такие как Stable Diffusion, полностью полагаются на способность модели понимать взаимосвязь между лингвистическими описаниями и визуальными текстурами.

Link to this sectionДетекция с открытым словарем с помощью Ultralytics#

В то время как стандартные детекторы объектов опираются на заранее определенные списки категорий, мультимодальные подходы, такие как YOLO-World, позволяют тебе обнаруживать объекты с использованием текстовых подсказок с открытым словарем. Это преодолевает разрыв между лингвистическими командами и визуальным распознаванием в экосистеме Ultralytics.

Следующий пример демонстрирует, как использовать библиотеку ultralytics для выполнения детекции с открытым словарем, где модель обнаруживает объекты на основе пользовательских текстовых входных данных:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionРазграничение связанных терминов#

Чтобы ориентироваться в ландшафте современного машинного обучения, полезно отличать «Мультимодальный ИИ» от смежных концепций:

  • Мультимодальное обучение: Это относится к академической дисциплине и методологии обучения алгоритмов на смешанных типах данных. «Мультимодальный ИИ» обычно относится к практическому применению или к самой результирующей системе.
  • Большие языковые модели (LLM): Традиционные LLM являются унимодальными и обучаются исключительно на текстовых данных. Однако отрасль движется в сторону «Больших мультимодальных моделей» (LMM), которые могут нативно обрабатывать изображения и текст — тренд, поддерживаемый такими фреймворками, как PyTorch и TensorFlow.
  • Специализированные модели компьютерного зрения: Такие модели, как современная Ultralytics YOLO26, являются высокоспециализированными экспертами в визуальных задачах. В то время как общая мультимодальная модель может описывать сцену в общих чертах, специализированные модели превосходно справляются с высокоскоростной и точной детекцией объектов и обработкой в реальном времени на граничных устройствах.

Link to this sectionВзгляд в будущее#

Траектория развития мультимодального ИИ указывает на системы, обладающие большими способностями к рассуждению. Успешно обосновывая язык в визуальной и физической реальности, эти модели выходят за рамки статистической корреляции в сторону подлинного понимания. Исследования таких институтов, как Google DeepMind и Стэнфордский центр исследований фундаментальных моделей, продолжают расширять границы того, как машины воспринимают сложные среды.

В Ultralytics мы интегрируем эти достижения в Ultralytics Platform, позволяя тебе управлять данными, обучать модели и развертывать решения, использующие весь спектр доступных модальностей, сочетая скорость YOLO26 с универсальностью мультимодальных входных данных.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения