Откройте для себя Multimodal AI — область, где системы обрабатывают и понимают разнообразные данные, такие как текст, изображения и аудио. Узнайте, как это работает, и изучите ключевые приложения.
Мультимодальный ИИ относится к сложной ветви искусственного интеллекта (ИИ), который обрабатывает, интерпретирует и принимает решения, используя несколько типов данных одновременно. В отличие от традиционных унимодальных систем которые полагаются на один источник входных данных - например, только текст большие языковые модели (LLM) или классификаторы, работающие только с изображениями. классификаторы, мультимодальные системы объединяют различные потоки данных, такие как текст, изображения, аудио, видео и показания датчиков. Такой подход имитирует человеческое восприятие, которое естественным образом сочетает зрение, звук и язык для формирования комплексного понимания окружающей среды. Синтезируя эти различные модальностей, эти системы достигают более высокой точности и понимания контекста, приближаясь к возможностям Искусственный интеллект общего назначения (ИОНИ).
Архитектура мультимодальной системы обычно включает три отдельных этапа: кодирование, слияние и декодирование. Сначала создаются отдельные нейронные сети, такие как Конволюционные нейронные сети (CNN) для визуальных данных и трансформеры для текстовых данных, извлекают признаки из каждого типа входных данных. Эти признаки преобразуются в числовые векторы, известные как эмбеддинги.
Критический этап - объединение, когда эти вкрапления объединяются в общее пространство представления. Продвинутый техники слияния используют механизмы внимания для оценки важности различных модальностей по отношению друг к другу. Например, в задаче анализа видео модель может отдавать предпочтение аудиоданным, когда персонаж говорит, но переключать внимание на визуальные данные во время последовательности действий. Такие фреймворки, как PyTorch и TensorFlow обеспечивают вычислительную основу для создания этих сложных архитектуры.
Мультимодальный ИИ стимулирует инновации в различных отраслях, решая проблемы, требующие целостного восприятия данных.
Хотя полные мультимодальные модели являются сложными, их компоненты часто представляют собой доступные специализированные модели. Например, в компонент зрения в мультимодальном конвейере часто использует высокоскоростной детектор объектов. Ниже приведен пример использования Ultralytics YOLO11 для извлечения визуальных концепций (классов) из изображения, которые затем могут быть переданы в языковую модель для дальнейших рассуждений.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
Для лучшего понимания ландшафта полезно отличать мультимодальный ИИ от схожих терминов:
Эта область быстро развивается в направлении систем, которые могут беспрепятственно генерировать и понимать любые модальности. Исследования институты, такие как Google DeepMind и OpenAI расширяют границы модели фундамента, чтобы лучше согласовать текстовые и визуальные латентных пространств.
В Ultralytics мы постоянно совершенствуем компонент видения в этой экосистеме. Предстоящий YOLO26 разрабатывается для обеспечения еще большей эффективности и точности, служа надежной визуальной основой для будущих мультимодальных приложений. Пользователи, заинтересованные в использовании эти возможности, могут изучить интеграцию с такими инструментами, как LangChain для создания собственных сложных систем рассуждений.