Узнайте, как мультимодальные модели AI объединяют текст, изображения и другие данные для создания надежных, универсальных систем для реальных приложений.
Мультимодальная модель - это усовершенствованная система искусственного интеллекта (ИИ) способная обрабатывать, интерпретировать и интегрировать информацию из нескольких различных типов данных, или "модальностей", одновременно. В отличие от традиционных унимодальных систем, специализирующихся на одной области, таких как обработка естественного языка (NLP) для текстов или компьютерное зрение (CV) для изображения, мультимодальные модели могут анализировать текст, изображения, аудио-, видео- и сенсорные данные вместе. Такая конвергенция позволяет модели развивать более полное и человекоподобное понимание мира, поскольку она может устанавливать корреляции между визуальными сигналами и лингвистическими описаниями. Эта способность является основополагающей для разработки будущих искусственного интеллекта общего назначения (ИОНИ) и в настоящее время является движущей силой инноваций в самых разных областях - от робототехники до автоматизированного создания контента.
Эффективность мультимодальных моделей зависит от их способности отображать различные типы данных в общее семантическое пространство. Этот процесс обычно начинается с генерации вкраплений - числовыхпредставлений данных, которые которые отражают их основной смысл. Обучаясь на массивных массивах данных парных примеров, таких как изображения с подписями, модель модель учится выравнивать вложение изображения "собаки" с текстовым вложением слова "собака".
Ключевые архитектурные инновации делают эту интеграцию возможной:
Мультимодальные модели открыли новые возможности, которые ранее были невозможны при использовании систем с одной модальностью.
Следующий пример демонстрирует, как использовать ultralytics библиотека для работы с открытым словарем
обнаружения, когда модель обнаруживает объекты на основе пользовательских текстовых данных:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Важно отличать "Мультимодальную модель" от смежных понятий в глоссарии ИИ:
В этой области быстро развиваются модели, способные обрабатывать непрерывные потоки аудио, видео и текста в в режиме реального времени. Исследования таких организаций, как Google DeepMind, продолжают расширять границы восприятия этих систем. В Ultralytics, в то время как наш флагманский YOLO11 модели устанавливают стандарты скорости и точности в обнаружения объектов, мы также внедряем инновации с помощью архитектуры, такие как YOLO26, которые еще больше повышают эффективность как для граничных, так и для облачных приложений. В перспективе комплексная Ultralytics Platform обеспечит единую среду для управления данными, обучения и развертывания для этих все более сложных рабочих процессов ИИ.