Multimodal RAG
Изучи мультимодальный RAG для обработки текста, изображений и видео. Узнай, как Ultralytics YOLO26 улучшает конвейеры поиска ИИ для более точных и контекстно-зависимых ответов.
Мультимодальная генерация с дополненной выборкой (Multimodal RAG) — это передовая инфраструктура искусственного интеллекта (ИИ), которая расширяет возможности традиционных систем RAG для обработки и анализа различных типов данных, таких как текст, изображения, видео и аудио. В то время как стандартная генерация с дополненной выборкой (RAG) повышает точность большой языковой модели (LLM) за счет поиска релевантных текстовых документов, Multimodal RAG позволяет моделям «видеть» и «слышать», извлекая контекст из смешанной базы знаний. Этот подход обосновывает генерацию модели конкретными визуальными или аудиальными доказательствами, что значительно снижает количество галлюцинаций в LLM и позволяет выполнять сложные задачи, такие как визуальные ответы на вопросы по закрытым наборам данных. Используя мультимодальное обучение, эти системы могут синтезировать информацию из запроса пользователя (например, текст) и извлеченных активов (например, диаграмма или кадр видеонаблюдения) для создания комплексных, контекстно-зависимых ответов.
Link to this sectionКак работает Multimodal RAG#
Архитектура системы Multimodal RAG обычно повторяет стандартный конвейер «извлечение-затем-генерация», но адаптирует его для нетекстовых данных. Этот процесс в значительной степени опирается на векторные базы данных и общие семантические пространства.
-
Индексация: Данные из различных источников — PDF-файлы, видео, слайды — проходят обработку. Модели извлечения признаков преобразуют эти различные модальности в высокоразмерные численные векторы, известные как эмбеддинги. Например, модель, подобная CLIP от OpenAI, выравнивает эмбеддинги изображений и текста так, чтобы изображение собаки и слово «собака» были математически близки.
-
Извлечение: Когда пользователь задает вопрос (например, «Покажи мне дефект на этой печатной плате»), система выполняет семантический поиск по векторной базе данных, чтобы найти наиболее релевантные изображения или видеоклипы, соответствующие намерению запроса.
-
Генерация: Извлеченный визуальный контекст подается в визуально-языковую модель (VLM). VLM обрабатывает как текстовую подсказку пользователя, так и извлеченные признаки изображения, чтобы сгенерировать окончательный ответ, фактически «общаясь» с данными.
Link to this sectionРеальные приложения#
Multimodal RAG трансформирует индустрии, позволяя ИИ-агентам взаимодействовать с физическим миром через визуальные данные.
- Промышленное обслуживание и производство: Используя ИИ в производстве, техники могут запрашивать систему, отправив фото сломанной детали машины. Система Multimodal RAG извлекает похожие исторические журналы технического обслуживания, технические схемы и видеоинструкции, чтобы направить процесс ремонта. Это сокращает время простоя и демократизирует экспертные знания.
- Розничная торговля и e-commerce: Приложения, использующие ИИ в ритейле, позволяют клиентам загружать изображение понравившегося наряда. Система извлекает визуально похожие товары из текущего инвентаря и генерирует советы по стилю или сравнения продуктов, создавая высокоперсонализированный опыт покупок.
Link to this sectionРазграничение похожих терминов#
Чтобы понять специфическую нишу Multimodal RAG, полезно отличить его от смежных концепций:
- Multimodal RAG против Мультимодальной модели: Мультимодальная модель (такая как GPT-4o или Gemini) создает ответ. Multimodal RAG — это архитектура, которая поставляет этой модели внешние, приватные данные (изображения, документы), на которых она не обучалась. Модель — это двигатель; RAG — это топливопровод.
- Multimodal RAG против Дообучения: Дообучение постоянно обновляет веса модели для изучения новой задачи или стиля. RAG предоставляет временные знания во время вывода. RAG предпочтительнее для динамических данных (например, ежедневный инвентарь), где частое переобучение непрактично.
Link to this sectionРеализация с помощью Ultralytics#
Разработчики могут создать компонент извлечения конвейера Multimodal RAG с помощью Ultralytics YOLO. Обнаруживая и классифицируя объекты на изображениях, YOLO предоставляет структурированные метаданные, которые можно индексировать для текстового поиска или использовать для обрезки соответствующих областей изображения для VLM. Платформа Ultralytics упрощает обучение этих специализированных моделей компьютерного зрения для распознавания пользовательских объектов, критически важных для твоей конкретной сферы.
Следующий пример демонстрирует использование YOLO26 для извлечения визуального контекста (обнаруженных объектов) из изображения, который затем может быть передан в LLM как часть рабочего процесса RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, personLink to this sectionДополнительные материалы и ресурсы#
- Документация LangChain: Полное руководство по созданию конвейеров поиска, включая поддержку мультимодальности.
- Руководство по мультимодальности LlamaIndex: Подробная документация по индексации и извлечению сложных типов данных для LLM.
- Google Cloud Vertex AI Search: Возможности векторного поиска корпоративного уровня для создания масштабируемых приложений RAG.
- Решения Ultralytics: Узнай, как компьютерное зрение интегрируется с более широкими ИИ-системами в различных отраслях.






