Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мультимодальный ИИ

Откройте для себя Multimodal AI — область, где системы обрабатывают и понимают разнообразные данные, такие как текст, изображения и аудио. Узнайте, как это работает, и изучите ключевые приложения.

Мультимодальный ИИ относится к сложной ветви искусственного интеллекта (ИИ), который обрабатывает, интерпретирует и принимает решения, используя несколько типов данных одновременно. В отличие от традиционных унимодальных систем которые полагаются на один источник входных данных - например, только текст большие языковые модели (LLM) или классификаторы, работающие только с изображениями. классификаторы, мультимодальные системы объединяют различные потоки данных, такие как текст, изображения, аудио, видео и показания датчиков. Такой подход имитирует человеческое восприятие, которое естественным образом сочетает зрение, звук и язык для формирования комплексного понимания окружающей среды. Синтезируя эти различные модальностей, эти системы достигают более высокой точности и понимания контекста, приближаясь к возможностям Искусственный интеллект общего назначения (ИОНИ).

Механика мультимодальных систем

Архитектура мультимодальной системы обычно включает три отдельных этапа: кодирование, слияние и декодирование. Сначала создаются отдельные нейронные сети, такие как Конволюционные нейронные сети (CNN) для визуальных данных и трансформеры для текстовых данных, извлекают признаки из каждого типа входных данных. Эти признаки преобразуются в числовые векторы, известные как эмбеддинги.

Критический этап - объединение, когда эти вкрапления объединяются в общее пространство представления. Продвинутый техники слияния используют механизмы внимания для оценки важности различных модальностей по отношению друг к другу. Например, в задаче анализа видео модель может отдавать предпочтение аудиоданным, когда персонаж говорит, но переключать внимание на визуальные данные во время последовательности действий. Такие фреймворки, как PyTorch и TensorFlow обеспечивают вычислительную основу для создания этих сложных архитектуры.

Применение в реальном мире

Мультимодальный ИИ стимулирует инновации в различных отраслях, решая проблемы, требующие целостного восприятия данных.

  1. Визуальные ответы на вопросы (VQA): Это приложение позволяет пользователям взаимодействовать с изображениями, используя естественного языка. Пользователь может загрузить фотографию холодильника и спросить: "Какие ингредиенты можно использовать для для приготовления пищи?". Система использует компьютерное зрение (КЗ) для идентификации объектов и обработка естественного языка (NLP) для понимания запроса и формулирования ответа. Это очень важно для разработки инструментов доступности для людей с ослабленным зрением людей с нарушениями зрения.
  2. Автономная навигация: Самоуправляемые автомобили и робототехника в значительной степени зависят от слияния датчиков. Они объединяют Данные с камер, LiDAR и радаров позволяют detect препятствия, читать дорожные знаки и предсказывать поведение пешеходов. Такая Такая интеграция обеспечивает безопасность и надежность в динамичных условиях, что является основным направлением развития ИИ в автомобильной промышленности. ИИ в автомобильной промышленности.
  3. Диагностика в здравоохранении: Современные диагностические инструменты объединяют анализ медицинских изображений (рентгеновские снимки, магнитно-резонансная томография) с текстовые клинические записи и геномные данные. Благодаря совместному анализу этих методов ИИ может поставить более точный диагнозы и персонализированные планы лечения, совершая революцию ИИ в здравоохранении.

Реализация видения в мультимодальных конвейерах

Хотя полные мультимодальные модели являются сложными, их компоненты часто представляют собой доступные специализированные модели. Например, в компонент зрения в мультимодальном конвейере часто использует высокоскоростной детектор объектов. Ниже приведен пример использования Ultralytics YOLO11 для извлечения визуальных концепций (классов) из изображения, которые затем могут быть переданы в языковую модель для дальнейших рассуждений.

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

Различение смежных понятий

Для лучшего понимания ландшафта полезно отличать мультимодальный ИИ от схожих терминов:

  • Мультимодальное обучение: Это это технический процесс или дисциплина обучения алгоритмов, способных обучаться на смешанных типах данных. Он фокусируется на функциях потерь и стратегиях оптимизации, используемых во время обучения модели.
  • Мультимодальные модели: Это конкретные артефакты или отдельные архитектуры (например, GPT-4o или Gemini), являющиеся результатом процесса обучения.
  • Специализированные модели зрения: Такие модели, как Ultralytics YOLO11 являются специализированными экспертами. В то время как мультимодальная модель может описывать сцену в целом ("Оживленная улица"), специализированная модель превосходит ее в точности обнаружение объектов и сегментации объектов, предоставляя точные координаты и маски. Специализированные модели часто работают быстрее и эффективнее для задач реального времени, как это видно при сравнении сравнении YOLO11 и RT-DETR.

Будущие направления

Эта область быстро развивается в направлении систем, которые могут беспрепятственно генерировать и понимать любые модальности. Исследования институты, такие как Google DeepMind и OpenAI расширяют границы модели фундамента, чтобы лучше согласовать текстовые и визуальные латентных пространств.

В Ultralytics мы постоянно совершенствуем компонент видения в этой экосистеме. Предстоящий YOLO26 разрабатывается для обеспечения еще большей эффективности и точности, служа надежной визуальной основой для будущих мультимодальных приложений. Пользователи, заинтересованные в использовании эти возможности, могут изучить интеграцию с такими инструментами, как LangChain для создания собственных сложных систем рассуждений.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас