Глоссарий

Мультимодальное обучение

Откройте для себя возможности мультимодального обучения в искусственном интеллекте! Узнайте, как модели объединяют различные типы данных для более глубокого решения реальных задач.

Мультимодальное обучение - это область машинного обучения (ML), в которой модели ИИ обучаются обрабатывать и понимать информацию из нескольких типов данных, называемых модальностями. Подобно тому, как человек воспринимает мир, сочетая зрение, звук и язык, мультимодальное обучение позволяет ИИ развивать более целостное и контекстуальное понимание, объединяя данные из таких источников, как изображения, текст, аудио и показания датчиков. Такой подход выходит за рамки однофокусных систем, позволяя создавать более богатые интерпретации и более сложные приложения, которые отражают человеческий интеллект. Конечная цель - создать модели, которые смогут видеть, читать и слушать, чтобы получить исчерпывающую информацию.

Как работает мультимодальное обучение

Системы мультимодального обучения призваны решать три основные задачи: представление, выравнивание и объединение. Во-первых, модель должна выучить значимое представление для каждой модальности, часто преобразуя различные типы данных, такие как пиксели и слова, в числовые векторы, называемые эмбеддингами. Во-вторых, она должна выровнять эти представления, соединив связанные понятия между модальностями - например, связать текст "собака ловит фрисби" с соответствующими визуальными элементами на фотографии. Наконец, он объединяет эти согласованные представления, чтобы сделать единое предсказание или создать новый контент. Это объединение может происходить на разных этапах, и разработка таких архитектур, как трансформер и его механизм внимания, сыграла решающую роль в создании эффективных стратегий объединения.

Применение в реальном мире

Мультимодальное обучение - это двигатель многих передовых возможностей ИИ. Вот несколько ярких примеров:

  1. Визуальный ответ на вопрос (VQA): В VQA модели ИИ дается изображение и вопрос на естественном языке о нем (например, "Что делает человек в красной рубашке?"). Модель должна одновременно обрабатывать визуальную информацию с изображения и семантическое значение текста, чтобы дать точный ответ. Эта технология используется для создания вспомогательных инструментов для людей с ослабленным зрением и для расширенного контент-анализа. Вы можете изучить популярный набор данных VQA, чтобы увидеть больше примеров.
  2. Генерация текста в изображение: Генеративные модели, такие как OpenAI's DALL-E 3 и Stable Diffusion, являются яркими примерами мультимодального обучения. Они берут текстовое описание (подсказку) и генерируют новое, соответствующее изображение. Для этого требуется глубокое понимание языка и способность переводить абстрактные понятия в связные визуальные детали - задача, объединяющая НЛП и генеративное зрение.

Ключевые различия

Полезно отличать мультимодальное обучение от смежных терминов:

  • Мультимодальные модели: Мультимодальное обучение - это процесс или область исследований, связанная с обучением ИИ с использованием нескольких типов данных. Мультимодальные модели - это результирующие системы или архитектуры ИИ, разработанные и обученные с помощью этих методов.
  • Компьютерное зрение (КВ): CV фокусируется исключительно на обработке и понимании визуальных данных. В то время как специализированные модели CV, такие как Ultralytics YOLO11, отлично справляются с такими задачами, как обнаружение объектов, мультимодальное обучение идет дальше, интегрируя визуальные данные с другими модальностями.
  • Обработка естественного языка (НЛП): НЛП занимается пониманием и созданием человеческого языка. Мультимодальное обучение объединяет языковые данные с другими модальностями, такими как изображения или показания датчиков, как показано в Vision Language Models.
  • Базовые модели: Это крупномасштабные модели, предварительно обученные на огромных объемах данных. Многие современные базовые модели, например GPT-4, по своей сути являются мультимодальными, однако эти понятия отличаются друг от друга. Мультимодальное обучение - это методология, часто используемая для построения этих мощных моделей, которые изучаются в таких институтах, как Стэнфордский центр CRFM.

Проблемы и будущие направления

Мультимодальное обучение ставит перед нами уникальные задачи, включая эффективное согласование данных из разных источников, разработку оптимальных стратегий слияния и обработку недостающих или зашумленных данных. Решение этих проблем в мультимодальном обучении остается активной областью исследований. Эта область быстро развивается, расширяя границы в сторону систем ИИ, которые воспринимают и рассуждают о мире более похоже на человеческие, что может способствовать развитию искусственного интеллекта общего назначения (ИИОН). В то время как платформы, подобные Ultralytics HUB, в настоящее время способствуют рабочим процессам, ориентированным в первую очередь на задачи компьютерного зрения, более широкий ландшафт ИИ указывает на растущую интеграцию мультимодальных возможностей. Следите за новостями в блоге Ultralytics, чтобы узнать о новых возможностях моделей, разработанных с помощью таких фреймворков, как PyTorch и TensorFlow.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена