Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Multimodal RAG

Изучи мультимодальный RAG для обработки текста, изображений и видео. Узнай, как Ultralytics YOLO26 улучшает конвейеры поиска ИИ для более точных и контекстно-зависимых ответов.

Мультимодальная генерация с дополненной выборкой (Multimodal RAG) — это передовая инфраструктура искусственного интеллекта (ИИ), которая расширяет возможности традиционных систем RAG для обработки и анализа различных типов данных, таких как текст, изображения, видео и аудио. В то время как стандартная генерация с дополненной выборкой (RAG) повышает точность большой языковой модели (LLM) за счет поиска релевантных текстовых документов, Multimodal RAG позволяет моделям «видеть» и «слышать», извлекая контекст из смешанной базы знаний. Этот подход обосновывает генерацию модели конкретными визуальными или аудиальными доказательствами, что значительно снижает количество галлюцинаций в LLM и позволяет выполнять сложные задачи, такие как визуальные ответы на вопросы по закрытым наборам данных. Используя мультимодальное обучение, эти системы могут синтезировать информацию из запроса пользователя (например, текст) и извлеченных активов (например, диаграмма или кадр видеонаблюдения) для создания комплексных, контекстно-зависимых ответов.

Link to this sectionКак работает Multimodal RAG#

Архитектура системы Multimodal RAG обычно повторяет стандартный конвейер «извлечение-затем-генерация», но адаптирует его для нетекстовых данных. Этот процесс в значительной степени опирается на векторные базы данных и общие семантические пространства.

  1. Индексация: Данные из различных источников — PDF-файлы, видео, слайды — проходят обработку. Модели извлечения признаков преобразуют эти различные модальности в высокоразмерные численные векторы, известные как эмбеддинги. Например, модель, подобная CLIP от OpenAI, выравнивает эмбеддинги изображений и текста так, чтобы изображение собаки и слово «собака» были математически близки.

  2. Извлечение: Когда пользователь задает вопрос (например, «Покажи мне дефект на этой печатной плате»), система выполняет семантический поиск по векторной базе данных, чтобы найти наиболее релевантные изображения или видеоклипы, соответствующие намерению запроса.

  3. Генерация: Извлеченный визуальный контекст подается в визуально-языковую модель (VLM). VLM обрабатывает как текстовую подсказку пользователя, так и извлеченные признаки изображения, чтобы сгенерировать окончательный ответ, фактически «общаясь» с данными.

Link to this sectionРеальные приложения#

Multimodal RAG трансформирует индустрии, позволяя ИИ-агентам взаимодействовать с физическим миром через визуальные данные.

  • Промышленное обслуживание и производство: Используя ИИ в производстве, техники могут запрашивать систему, отправив фото сломанной детали машины. Система Multimodal RAG извлекает похожие исторические журналы технического обслуживания, технические схемы и видеоинструкции, чтобы направить процесс ремонта. Это сокращает время простоя и демократизирует экспертные знания.
  • Розничная торговля и e-commerce: Приложения, использующие ИИ в ритейле, позволяют клиентам загружать изображение понравившегося наряда. Система извлекает визуально похожие товары из текущего инвентаря и генерирует советы по стилю или сравнения продуктов, создавая высокоперсонализированный опыт покупок.

Link to this sectionРазграничение похожих терминов#

Чтобы понять специфическую нишу Multimodal RAG, полезно отличить его от смежных концепций:

  • Multimodal RAG против Мультимодальной модели: Мультимодальная модель (такая как GPT-4o или Gemini) создает ответ. Multimodal RAG — это архитектура, которая поставляет этой модели внешние, приватные данные (изображения, документы), на которых она не обучалась. Модель — это двигатель; RAG — это топливопровод.
  • Multimodal RAG против Дообучения: Дообучение постоянно обновляет веса модели для изучения новой задачи или стиля. RAG предоставляет временные знания во время вывода. RAG предпочтительнее для динамических данных (например, ежедневный инвентарь), где частое переобучение непрактично.

Link to this sectionРеализация с помощью Ultralytics#

Разработчики могут создать компонент извлечения конвейера Multimodal RAG с помощью Ultralytics YOLO. Обнаруживая и классифицируя объекты на изображениях, YOLO предоставляет структурированные метаданные, которые можно индексировать для текстового поиска или использовать для обрезки соответствующих областей изображения для VLM. Платформа Ultralytics упрощает обучение этих специализированных моделей компьютерного зрения для распознавания пользовательских объектов, критически важных для твоей конкретной сферы.

Следующий пример демонстрирует использование YOLO26 для извлечения визуального контекста (обнаруженных объектов) из изображения, который затем может быть передан в LLM как часть рабочего процесса RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionДополнительные материалы и ресурсы#

  • Документация LangChain: Полное руководство по созданию конвейеров поиска, включая поддержку мультимодальности.
  • Руководство по мультимодальности LlamaIndex: Подробная документация по индексации и извлечению сложных типов данных для LLM.
  • Google Cloud Vertex AI Search: Возможности векторного поиска корпоративного уровня для создания масштабируемых приложений RAG.
  • Решения Ultralytics: Узнай, как компьютерное зрение интегрируется с более широкими ИИ-системами в различных отраслях.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения