Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Мультимодальный RAG

Изучите мультимодальный RAG для обработки текста, изображений и видео. Узнайте, как Ultralytics улучшает конвейеры поиска с помощью ИИ для получения более точных ответов с учетом контекста.

Мультимодальное поисковое усиление генерации (Multimodal RAG) — это передовая архитектура искусственного интеллекта (ИИ), которая расширяет возможности традиционных систем RAG для обработки и анализа различных типов данных, таких как текст, изображения, видео и аудио. В то время как стандартное поисковое усиление генерации (RAG) повышает точность большой языковой модели (LLM) путем поиска соответствующих текстовых документов, мультимодальная RAG позволяет моделям «видеть» и «слышать» путем извлечения контекста из базы знаний, содержащей смешанные медиа. Этот подход основывает генерацию модели на конкретных визуальных или аудио свидетельствах, что значительно снижает галлюцинации в LLM и позволяет выполнять сложные задачи, такие как визуальный ответ на вопросы по частным наборам данных. Используя мультимодальное обучение, эти системы могут синтезировать информацию из запроса пользователя (например, текста) и найденных ресурсов (например, диаграммы или кадра наблюдения) для создания комплексных, контекстно-зависимых ответов.

Как работает мультимодальный RAG

Архитектура мультимодальной системы RAG обычно отражает стандартный конвейер «поиск-генерация», но адаптирует его для нетекстовых данных. Этот процесс в значительной степени опирается на векторные базы данных и общие семантические пространства.

  1. Индексирование: обрабатываются данные из различных источников — PDF-файлы, видео, наборы слайдов. Модели извлечения признаков преобразуют эти различные модальности в высокоразмерные числовые векторы, известные как вложения. Например, такая модель, как CLIP от OpenAI, выравнивает вложения изображений и текста, чтобы изображение собаки и слово «собака» были математически близки.
  2. Поиск: когда пользователь задает вопрос (например, «Покажите мне дефект в этой печатной плате »), система выполняет семантический поиск по векторной базе данных, чтобы найти наиболее релевантные изображения или видеоролики, соответствующие смыслу запроса.
  3. Поколение: Полученный визуальный контекст поступает в модель Vision-Language Model (VLM). VLM обрабатывает как текстовый запрос пользователя, так и полученные характеристики изображения, чтобы сгенерировать окончательный ответ, фактически «общаясь» с данными.

Применение в реальном мире

Мультимодальный RAG преобразует отрасли, позволяя агентам ИИ взаимодействовать с физическим миром через визуальные данные.

  • Промышленное обслуживание и производство: в сфере производства искусственный интеллект позволяет техническим специалистам отправлять в систему фотографию сломанной детали машины. Мультимодальная система RAG извлекает аналогичные исторические записи о техническом обслуживании , технические схемы и видеоуроки, которые помогают в процессе ремонта. Это сокращает время простоя и делает экспертные знания доступными для всех.
  • Розничная торговля и электронная коммерция: Приложения, использующие ИИ в розничной торговле, позволяют клиентам загружать изображения нравищихся им нарядов. Система извлекает визуально похожие товары из текущего ассортимента и генерирует советы по стилю или сравнения продуктов, создавая высоко персонализированный опыт покупок.

Дифференциация смежных терминов

Чтобы понять специфическую нишу мультимодального RAG, полезно отличить его от смежных концепций:

  • Мультимодальный RAG против мультимодальной модели: Мультимодальная модель (такая как GPT-4o или Gemini) создает ответ. Мультимодальный RAG — это архитектура, которая подаёт этой модели внешние частные данные (изображения, документы), на которых она не была обучена. Модель — это двигатель, а RAG — топливопровод.
  • Мультимодальный RAG против тонкой настройки: Тонкая настройка постоянно обновляет веса модели для обучения новой задаче или стилю. RAG предоставляет временные знания во время вывода. RAG предпочтительнее для динамических данных (например, ежедневных запасов), где частое переобучение нецелесообразно.

Реализация с помощью Ultralytics

Разработчики могут создавать компонент извлечения данных для мультимодального конвейера RAG с помощью Ultralytics YOLO. Обнаруживая и классифицируя объекты на изображениях, YOLO структурированные метаданные, которые можно индексировать для текстового поиска или использовать для кадрирования соответствующих областей изображения для VLM. Ultralytics упрощает обучение этих специализированных моделей зрения распознаванию пользовательских объектов, важных для вашей конкретной области.

Следующий пример демонстрирует использование YOLO26 для извлечения визуального контекста (обнаруженных объектов) из изображения, который затем может быть передан в LLM как часть рабочего процесса RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Дополнительное чтение и ресурсы

  • Документация LangChain: Полное руководство по созданию конвейеров поиска, включая мультимодальную поддержку.
  • LlamaIndex Multimodal Guide: Подробная документация по индексированию и извлечению сложных типов данных для LLM.
  • Google Vertex AI Search: Векторные поисковые возможности корпоративного уровня для создания масштабируемых приложений RAG.
  • Ultralytics : узнайте, как компьютерное зрение интегрируется в более широкие системы искусственного интеллекта в различных отраслях.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас