Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Multi-Modal Learning

Изучи мультимодальное обучение в ИИ. Узнай, как оно интегрирует текст, зрение и аудио для создания надежных моделей, таких как Ultralytics YOLO26 и YOLO-World. Узнай больше сегодня!

Мультимодальное обучение — это сложный подход в искусственном интеллекте (ИИ), который обучает алгоритмы обрабатывать, понимать и сопоставлять информацию из нескольких различных типов данных, или «модальностей». В отличие от традиционных систем, специализирующихся на одном типе входных данных — например, тексте для перевода или пикселях для распознавания изображений — мультимодальное обучение имитирует человеческое познание, интегрируя разнообразные сенсорные данные, такие как визуальная информация, устная речь, текстовые описания и показания датчиков. Этот целостный подход позволяет моделям машинного обучения (МО) сформировать более глубокое, контекстно-зависимое понимание мира, что ведет к созданию более надежных и универсальных прогнозов.

Link to this sectionКак работает мультимодальное обучение#

Основная задача мультимодального обучения заключается в преобразовании различных типов данных в общее математическое пространство, где их можно сравнивать и объединять. Этот процесс обычно включает три основных этапа: кодирование, выравнивание и слияние.

  1. Извлечение признаков: Специализированные нейронные сети обрабатывают каждую модальность независимо. Например, сверточные нейронные сети (CNN) или трансформеры зрения (ViT) могут извлекать признаки из изображений, в то время как рекуррентные нейронные сети (RNN) или трансформеры обрабатывают текст.

  2. Выравнивание эмбеддингов: Модель учится отображать эти разнообразные признаки в общие высокоразмерные векторы. В этом общем пространстве вектор для слова «кот» и вектор изображения кота оказываются близко друг к другу. Здесь критически важны такие методы, как контрастивное обучение, популяризированные такими статьями, как CLIP от OpenAI.

  3. Слияние данных: Наконец, информация объединяется для выполнения задачи. Слияние может происходить на раннем этапе (объединение сырых данных), на позднем этапе (объединение финальных предсказаний) или с помощью промежуточных гибридных методов, использующих механизм внимания для динамической оценки важности каждой модальности.

Link to this sectionРеальные приложения#

Мультимодальное обучение является двигателем многих современных впечатляющих прорывов в ИИ, устраняя разрыв между различными информационными массивами для решения сложных проблем.

  • Визуальный ответ на вопросы (VQA): В этом приложении система должна проанализировать изображение и ответить на вопрос о нем на естественном языке, например: «Какого цвета светофор?». Для этого модели необходимо понимать семантику текста и пространственно определять соответствующие визуальные элементы с помощью компьютерного зрения.
  • Автономные транспортные средства: Беспилотные автомобили сильно зависят от слияния данных, объединяя информацию из облаков точек LiDAR, видеопотоков камер и радаров для безопасного передвижения. Такой мультимодальный ввод гарантирует, что если один датчик выйдет из строя (например, камеру ослепит солнечный блик), другие обеспечат безопасность дорожного движения.
  • Диагностика в здравоохранении: ИИ в здравоохранении использует мультимодальное обучение, анализируя медицинские изображения (например, МРТ или рентгеновские снимки) наряду с неструктурированной историей болезни пациента и генетическими данными. Этот комплексный подход помогает врачам ставить более точные диагнозы, что часто обсуждается в журналах Nature Digital Medicine.
  • Генеративный ИИ: Инструменты, которые создают изображения на основе текстовых запросов, такие как Stable Diffusion, полностью полагаются на способность модели понимать взаимосвязь между лингвистическими описаниями и визуальными текстурами.

Link to this sectionМультимодальное обнаружение объектов с Ultralytics#

В то время как стандартные детекторы объектов опираются на предопределенные классы, мультимодальные подходы, такие как YOLO-World, позволяют пользователям обнаруживать объекты с помощью текстовых запросов с открытым словарем. Это демонстрирует мощь связывания текстовых концептов с визуальными признаками в экосистеме Ultralytics.

Следующий фрагмент кода на Python показывает, как использовать предобученную модель YOLO-World для обнаружения объектов на основе пользовательских текстовых запросов.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionРазграничение ключевых терминов#

Чтобы ориентироваться в ландшафте современного ИИ, полезно отличать «Мультимодальное обучение» от смежных концепций:

  • Мультимодальная модель: «Мультимодальное обучение» относится к методологии и области исследований. «Мультимодальная модель» (например, GPT-4 или Gemini от Google) — это конкретный артефакт или программный продукт, ставший результатом этого процесса обучения.
  • Унимодальный ИИ: Традиционное компьютерное зрение обычно является унимодальным и фокусируется исключительно на визуальных данных. Хотя такая модель, как Ultralytics YOLO26, является передовым инструментом компьютерного зрения для обнаружения объектов, она обычно работает только с визуальными входными данными, если не является частью более крупного мультимодального конвейера.
  • Большие языковые модели (LLM): Традиционные LLM являются унимодальными и обучаются только на тексте. Однако индустрия переходит к «большим мультимодальным моделям» (LMM), которые могут нативно обрабатывать изображения и текст, — тенденция, поддерживаемая такими фреймворками, как PyTorch и TensorFlow.

Link to this sectionВзгляд в будущее#

Траектория развития мультимодального обучения указывает на создание систем, обладающих характеристиками Искусственного общего интеллекта (AGI). Успешно связывая язык с визуальной и физической реальностью, эти модели выходят за рамки статистических корреляций к подлинному рассуждению. Исследования таких институтов, как MIT CSAIL и Стэнфордский центр исследований фундаментальных моделей, продолжают расширять границы того, как машины воспринимают сложные мультисенсорные среды и взаимодействуют с ними.

В Ultralytics мы интегрируем эти достижения в нашу платформу Ultralytics, позволяя пользователям управлять данными, обучать модели и развертывать решения, использующие весь спектр доступных модальностей, от скорости YOLO26 до универсальности обнаружения с открытым словарем.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения