Глоссарий

Мультимодальное обучение

Откройте для себя мощь мультимодального обучения в AI! Узнайте, как модели интегрируют различные типы данных для более богатого решения реальных задач.

Мультимодальное обучение - это передовая область Машинное обучение (ML), в котором алгоритмы обучаются обрабатывать, понимать и соотносить информацию из нескольких различных типов данных, называемых модальностями. В то время как традиционные системы ИИ часто фокусируются на одном типе входных данных - например, тексте для перевода языка или пикселях для распознавания изображений, мультимодальноеобучение имитирует мультимодальное обучение имитирует человеческое познание, объединяя различные сенсорные данные, такие как визуальные данные, разговорный звук, текстовые описания и показания датчиков. показания датчиков. Такой целостный подход позволяет искусственному интеллекту (ИИ) развивать более глубокое понимание мира с учетом контекста, что приводит к созданию более надежных и универсальных моделей прогнозирования.

Механика мультимодальной интеграции

Основная проблема мультимодального обучения заключается в переводе различных типов данных в общее математическое пространство, в котором их можно сравнивать и объединять. где их можно сравнивать и объединять. Этот процесс обычно включает три основных этапа: кодирование, выравнивание и объединение.

Кодирование: Специализированные нейронные сети обрабатывают каждую модальность независимо. Например, сверточные нейронные сети (CNN) или трансформаторы зрения (ViTs) извлекают особенности из изображений, в то время как Рекуррентные нейронные сети (РНС) или Трансформаторы обрабатывают текст.
Выравнивание: Модель учится отображать эти разнообразные признаки в общие высокоразмерные векторы называемые вкраплениями. В этом общем пространстве вектор для слова "собака" и вектор для изображения собаки оказываются рядом друг с другом. Такие методы, как контрастное обучение, популяризируемое в таких работах, как таких как CLIP от OpenAI, очень важны.
Слияние: Наконец, информация объединяется для выполнения задачи. Слияние может происходить на ранней стадии (объединение необработанных данных), поздно (объединение окончательных прогнозов) или с помощью промежуточных гибридных методов, использующих механизм внимания для оценки важности каждой модальности динамически.

Применение в реальном мире

Мультимодальное обучение является движущей силой многих современных впечатляющих прорывов в области ИИ, преодолевая разрыв между разрыв между отдельными блоками данных.

Визуальные ответы на вопросы (VQA): На сайте При визуальном ответе на вопрос (VQA) Система должна проанализировать изображение и ответить на вопрос на естественном языке, например "Какого цвета светофор? светофор?". Это требует от модели понимания семантики текста и пространственного определения местоположения соответствующие визуальные элементы.
Автономная навигация: Самоуправляемые автомобили в значительной степени полагаются на слияния датчиков, объединяющих данные из облаков точек LiDAR, видеокамер и радаров для безопасной навигации. Такой мультимодальный ввод данных гарантирует, что если один датчик выйдет из строя (например, камера камера, ослепленная солнечным бликом), другие смогут обеспечить безопасность.
Диагностика в здравоохранении: ИИ в здравоохранении использует мультимодальное обучение анализируя медицинские изображения (например, МРТ или рентгеновские снимки), а также неструктурированные текстовые истории болезни и генетические данные. Такая комплексная картина помогает врачам ставить более точные диагнозы, и эта тема часто обсуждается в журналах Журналы Nature Digital Medicine.

Мультимодальное обнаружение объектов с помощью Ultralytics

В то время как стандартные детекторы объектов опираются на заранее определенные классы, мультимодальные подходы, такие как YOLO, позволяют пользователям detect объекты с помощью текстовые подсказки с открытым словарем. Это демонстрирует возможности связи текстовых понятий с визуальными характеристиками.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Дифференциация ключевых терминов

Чтобы ориентироваться в ландшафте современного ИИ, полезно отличать "мультимодальное обучение" от смежных понятий:

Мультимодальные модели: "Мультимодальное обучение" относится к методологии и области исследования. Мультимодальная модель" (например, GPT-4 или Gemini) - это конкретный артефакт или программный продукт, являющийся результатом этого процесса обучения.
Компьютерное зрение (КВ): Компьютерное зрение как правило, унимодальная, ориентированная исключительно на визуальные данные. В то время как такая модель, как Ultralytics YOLO11 является самым современным инструментом для работы с резюме, она становится частью мультимодального конвейера, когда ее результаты объединяются с аудио- или текстовыми данными.
Большие языковые модели (БЯМ): Традиционные LLM являются унимодальными и обучаются только на тексте. Однако индустрия переходит к "большим мультимодальным модели" (LMM), которые могут обрабатывать изображения и текст, и эта тенденция поддерживается такими платформами, как PyTorch и TensorFlow.

Перспективы на будущее

Траектория развития мультимодального обучения указывает на системы, обладающие искусственный интеллект (AGI) характеристиками. Благодаря успешному обоснованию языка в визуальной и физической реальности эти модели выходят за рамки статистической корреляции и переходят к подлинному мышлению. Исследования таких институтов, как MIT CSAIL и Стэнфордский центр исследований базовых моделей, продолжают расширять границы восприятия и взаимодействия машин со сложной мультисенсорной средой.

Мультимодальное обучение

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Механика мультимодальной интеграции

Применение в реальном мире

Мультимодальное обнаружение объектов с помощью Ultralytics

Дифференциация ключевых терминов

Перспективы на будущее

Читать больше в этой категории

Понимание важности аннотации с участием человека

Что такое дистилляция наборов данных? Краткий обзор

Очки Oakley Meta AI переосмысливают концепцию очков с помощью Vision AI

Присоединяйтесь к сообществу Ultralytics