Узнайте, как мультимодальные модели интегрируют текст, изображения и аудио. Познакомьтесь с такими архитектурами, как Ultralytics , и внедрите искусственный интеллект для обработки изображений на Ultralytics .
Мультимодальная модель — это усовершенствованный тип системы искусственного интеллекта (ИИ), способный одновременно обрабатывать, интерпретировать и интегрировать информацию из нескольких различных типов данных, или «модальностей». В то время как традиционные одномодальные системы специализируются на одной области, такой как обработка естественного языка (NLP) для текста или компьютерное зрение (CV) для изображений, мультимодальные модели стремятся имитировать человеческое восприятие, синтезируя визуальные, аудио и лингвистические сигналы вместе. Такая конвергенция позволяет модели развивать всестороннее понимание мира, что дает ей возможность устанавливать сложные корреляции между визуальной сценой и устным описанием. Эти возможности считаются основополагающими шагами на пути к достижению искусственного общего интеллекта (AGI).
Эффективность мультимодальной модели зависит от ее способности сопоставлять различные типы данных в общем семантическом пространстве. Этот процесс обычно начинается с создания вложений, которые представляют собой числовые представления, отражающие основной смысл входных данных. Благодаря обучению на огромных наборах данных парных примеров, таких как видео с субтитрами, модель учится соотносить векторное представление изображения «кошки» с текстовым вложением для слова «кошка».
Несколько ключевых архитектурных концепций делают эту интеграцию возможной:
Мультимодальные модели открыли возможности, которые ранее были недостижимы для одномодальных систем.
Следующий пример демонстрирует, как использовать ultralytics библиотеку для выполнения обнаружения с открытым словарем,
где модель интерпретирует текстовые подсказки для идентификации объектов на изображении:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
Полезно отличать «мультимодальную модель» от смежных понятий в глоссарии ИИ:
Эта область быстро развивается в направлении систем, способных обрабатывать непрерывные потоки аудио, видео и текста в реальном времени. Исследования таких организаций, как Google , продолжают расширять границы машинного восприятия. В Ultralytics мы поддерживаем эту экосистему с помощью высокопроизводительных базовых систем видения, таких как YOLO26. Выпущенная в 2026 году, YOLO26 предлагает превосходную скорость и точность для таких задач, как сегментация экземпляров, служа эффективным визуальным компонентом в более крупных мультимодальных конвейерах. Разработчики могут управлять данными, обучением и развертыванием этих сложных рабочих процессов с помощью унифицированной Ultralytics .