Глоссарий

Мультимодальная модель

Узнай, как мультимодальные модели ИИ объединяют текст, изображения и многое другое, чтобы создать надежные, универсальные системы для реальных приложений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Мультимодальные модели представляют собой значительное достижение в области искусственного интеллекта (ИИ) за счет обработки и интеграции информации из нескольких типов источников данных, называемых модальностями. В отличие от традиционных моделей, которые могут фокусироваться исключительно на изображениях или тексте, мультимодальные системы объединяют такие входные данные, как текст, изображения, аудио, видео и данные датчиков, чтобы достичь более целостного и похожего на человеческое понимания сложных сценариев. Такая интеграция позволяет им улавливать сложные взаимосвязи и контекст, которые могут упустить модели с одной модальностью, что приводит к созданию более надежных и универсальных приложений для ИИ, о которых подробнее рассказывается на таких ресурсах, как Ultralytics Blog.

Определение

Мультимодальная модель - это система искусственного интеллекта, созданная и обученная одновременно обрабатывать, понимать и соотносить информацию из двух или более различных модальностей данных. К распространенным модальностям относятся визуальные (изображения, видео), слуховые (речь, звуки), текстовые(обработка естественного языка - NLP) и другие данные датчиков (например, LiDAR или показания температуры). Основная идея заключается в слиянии информации - объединении сильных сторон разных типов данных для достижения более глубокого понимания. Например, полное понимание видео включает в себя обработку визуальных кадров, разговорного диалога (аудио) и, возможно, текстовых титров или субтитров. Изучая корреляции и зависимости между этими модальностями в процессе обучения машинному обучению (ML), часто используя методы глубокого обучения (DL), эти модели развивают более богатое, более тонкое понимание, чем это возможно при анализе каждой модальности в отдельности.

Актуальность и применение

Важность мультимодальных моделей стремительно растет, потому что информация реального мира по своей сути многогранна. Человек естественным образом воспринимает мир с помощью нескольких органов чувств; наделение ИИ аналогичными возможностями позволяет создавать более сложные и контекстно-ориентированные приложения. Такие модели крайне важны там, где понимание зависит от интеграции различных потоков данных, что приводит к повышению точности при решении сложных задач.

Вот несколько конкретных примеров их применения:

Ключевые понятия и различия

Понимание мультимодальных моделей предполагает знакомство со смежными понятиями:

  • Мультимодальное обучение: Это подобласть ML, сосредоточенная на разработке алгоритмов и методик, используемых для обучения мультимодальных моделей. В ней решаются такие задачи, как выравнивание данных и стратегии слияния, которые часто обсуждаются в научных работах.
  • Модели фундаментов: Многие современные фундаментные модели, такие как GPT-4, по своей сути являются мультимодальными, способными обрабатывать как текст, так и изображения. Эти большие модели служат базой, которую можно тонко настраивать под конкретные задачи.
  • Большие языковые модели (Large Language Models, LLM): Хотя они и связаны между собой, LLM традиционно фокусируются на обработке текста. Мультимодальные модели шире, они явно предназначены для обработки и интеграции информации из различных типов данных, помимо языка. Однако некоторые продвинутые LLM развивают мультимодальные возможности.
  • Специализированные модели зрения: Мультимодальные модели отличаются от специализированных моделей компьютерного зрения (CV), таких как Ultralytics YOLO. В то время как мультимодальная модель, например GPT-4, может описать изображение ("На коврике сидит кошка"), модель YOLO превосходит ее в обнаружении объектов или сегментации экземпляров, точно определяя местоположение кошки с помощью ограничительной рамки или пиксельной маски. Эти модели могут дополнять друг друга; YOLO определяет , где находятся объекты, а мультимодальная модель может интерпретировать сцену или отвечать на вопросы о ней. Посмотри, как сравниваются разные модели YOLO .
  • Архитектура трансформатора: Архитектура трансформаторов, представленная в книге "Attention Is All You Need", является основополагающей для многих успешных мультимодальных моделей, позволяя эффективно обрабатывать и интегрировать различные последовательности данных с помощью механизмов внимания.

Для разработки и развертывания этих моделей часто используются такие фреймворки, как PyTorch и TensorFlowА такие платформы, как Ultralytics HUB, могут помочь в управлении наборами данных и рабочими процессами обучения моделей, хотя в настоящее время HUB больше ориентирован на задачи, связанные со зрением. Способность соединять различные типы данных делает мультимодальные модели шагом к более комплексному ИИ, потенциально способствуя будущему искусственному общему интеллекту (AGI).

Читать полностью