Улучшение приложений ИИ с помощью RAG и компьютерного зрения

Абирами Вина

4 мин. чтения

28 мая 2025 г.

Узнайте, как сочетание генерации с расширенным поиском (RAG) и компьютерного зрения помогает системам искусственного интеллекта интерпретировать документы, изображения и сложный контент реального мира.

Использование инструментов искусственного интеллекта, таких как ChatGPT или Gemini, быстро становится распространенным способом поиска информации. Если вы составляете сообщение, обобщаете документ или отвечаете на вопрос, эти инструменты часто предлагают более быстрое и простое решение. 

Но если вы уже несколько раз использовали большие языковые модели (LLM), то, скорее всего, заметили их недостатки. Когда им задают очень специфические или чувствительные к времени запросы, они могут давать неверные ответы, причем зачастую уверенно.

Это происходит потому, что автономные LLM опираются исключительно на данные, на которых они обучались. У них нет доступа к последним обновлениям или специализированным знаниям за пределами этого набора данных. В результате их ответы могут быть устаревшими или неточными.

Чтобы решить эту проблему, исследователи разработали метод под названием retrieval-augmented generation (RAG). RAG улучшает языковые модели, позволяя им получать свежую, релевантную информацию из надежных источников при ответе на запросы.

В этой статье мы рассмотрим, как работает RAG и как он улучшает инструменты искусственного интеллекта, извлекая актуальную и свежую информацию. Мы также рассмотрим, как он работает вместе с компьютерным зрением- областью искусственного интеллекта, занимающейся интерпретацией визуальных данных, - чтобы помочь системам понимать не только текст, но и изображения, макеты и визуально сложные документы.

Понимание генерации с расширенным поиском (RAG)

Задавая вопрос чатботу с искусственным интеллектом, мы, как правило, ожидаем не просто хорошего ответа. В идеале хороший ответ должен быть ясным, точным и по-настоящему полезным. Чтобы добиться этого, модели ИИ нужно не только владеть языком, но и иметь доступ к нужной информации, особенно по специфическим или чувствительным к времени темам.

RAG - это техника, которая помогает преодолеть этот разрыв. Она объединяет способность языковой модели понимать и генерировать текст с возможностью получения релевантной информации из внешних источников. Вместо того чтобы полагаться только на свои обучающие данные, модель активно привлекает вспомогательный контент из доверенных баз знаний при формировании своего ответа.

Рис. 1. Ключевые примеры использования RAG. Изображение автора.

Можно представить себе, что вы задаете человеку вопрос, а он, прежде чем ответить, обращается к надежному справочнику. Ответ все равно будет написан своими словами, но он будет основан на самой актуальной и свежей информации.

Такой подход помогает LLM давать более полные, точные и адаптированные к запросу пользователя ответы, что делает их гораздо более надежными в реальных приложениях, где точность действительно важна.

Взгляд на то, как работает RAG

RAG улучшает реакцию большой языковой модели, вводя два ключевых этапа: поиск и генерацию. Сначала она извлекает релевантную информацию из внешней базы знаний. Затем она использует эту информацию для создания хорошо сформированного ответа, учитывающего контекст.

Давайте рассмотрим простой пример, чтобы понять, как работает этот процесс. Представьте, что вы используете ИИ-помощника для управления личными финансами и хотите проверить, остались ли вы в рамках своей цели по расходам в этом месяце.

Процесс начинается с того, что вы задаете помощнику вопрос вроде "Придерживался ли я своего бюджета в этом месяце?". Вместо того чтобы полагаться только на то, что она узнала во время обучения, система использует ретривер для поиска по вашим последним финансовым записям (например, банковским выпискам или сводкам операций). Она фокусируется на понимании смысла вашего вопроса и собирает наиболее релевантную информацию.

После того как информация получена, за дело берется языковая модель. Она обрабатывает ваш вопрос и данные, взятые из ваших записей, чтобы сгенерировать четкий и полезный ответ. Вместо того чтобы перечислять необработанные детали, ответ обобщает ваши расходы и дает вам прямую, содержательную информацию - например, подтверждает, достигли ли вы своей цели, и указывает на ключевые области расходов.

Такой подход помогает LLM давать ответы, которые не только точны, но и основаны на вашей реальной, актуальной информации, что делает опыт гораздо более полезным, чем у модели, работающей только со статичными обучающими данными.

Рис. 2. Понимание того, как работает RAG.

Необходимость в мультимодальных системах RAG

Как правило, информация не всегда передается в виде обычного текста. От медицинских сканов и диаграмм до слайдов презентаций и отсканированных документов - визуальные образы часто содержат важные детали. Традиционные LLM, созданные в основном для чтения и понимания текста, могут испытывать трудности при работе с таким контентом.

Однако RAG можно использовать вместе с компьютерным зрением, чтобы устранить этот пробел. Когда эти две системы объединяются, они образуют так называемую мультимодальную систему RAG - систему, которая может работать как с текстом, так и с визуальными изображениями, помогая чат-ботам с искусственным интеллектом давать более точные и полные ответы.

В основе этого подхода лежат модели языка зрения (VLM), которые предназначены для обработки и осмысления обоих типов входных данных. В этом случае RAG извлекает наиболее релевантную информацию из больших источников данных, а VLM с помощью компьютерного зрения интерпретирует изображения, макеты и диаграммы.

Это особенно полезно для реальных документов, таких как отсканированные формы, медицинские отчеты или слайды презентаций, где важные детали могут содержаться как в тексте, так и в визуальных образах. Например, при анализе документа, в котором наряду с таблицами и абзацами присутствуют изображения, мультимодальная система может извлечь визуальные элементы, сгенерировать краткое описание того, что они показывают, и объединить его с окружающим текстом, чтобы предоставить более полный и полезный ответ.

Рис. 3. Мультимодальный RAG использует изображения и текст для получения более точных ответов.

Применение RAG для визуальных данных 

Теперь, когда мы обсудили, что такое RAG и как он работает с компьютерным зрением, давайте рассмотрим несколько реальных примеров и исследовательских проектов, демонстрирующих применение этого подхода.

Понимание визуальных документов с помощью VisRAG

Допустим, вы пытаетесь извлечь информацию из финансового отчета или отсканированного юридического документа. Такие файлы часто содержат не только текст, но и таблицы, диаграммы и макеты, которые помогают объяснить информацию. Прямолинейная языковая модель может упустить или неправильно интерпретировать эти визуальные элементы, что приведет к неполным или неточным ответам.

VisRAG был создан исследователями для решения этой проблемы. Это конвейер RAG на основе VLM, который рассматривает каждую страницу как изображение, а не обрабатывает только текст. Это позволяет системе понимать как содержание, так и его визуальную структуру. В результате она может находить наиболее важные фрагменты и давать более четкие, точные и основанные на полном контексте документа ответы.

Рис. 4. VisRAG может читать документы как изображения, чтобы захватить текстовое содержание и макет.

Визуальные ответы на вопросы с помощью RAG

Визуальные ответы на вопросы (VQA) - это задача, в которой система искусственного интеллекта отвечает на вопросы об изображениях. Многие существующие системы VQA ориентированы на ответы на вопросы об одном документе без необходимости поиска дополнительной информации - это известно как закрытая настройка.

VDocRAG - это фреймворк RAG, который использует более реалистичный подход. Он объединяет VQA с возможностью сначала получить релевантные документы. Это полезно в реальных ситуациях, когда вопрос пользователя может относиться к одному из многих документов, и системе необходимо найти нужный документ, прежде чем ответить на него. Для этого VDocRAG использует VLM для анализа документов как изображений, сохраняя их текстовую и визуальную структуру.

Это делает VDocRAG особенно эффективным в таких приложениях, как корпоративный поиск, автоматизация документооборота и поддержка клиентов. С его помощью команды могут быстро извлекать ответы из сложных, визуально оформленных документов, например руководств или директивных документов, где понимание макета так же важно, как и чтение слов.

Рис. 5. Разница между решениями на основе VDocRAG и LLM.

Улучшение надписей к изображениям с помощью RAG

Создание подписей к изображениям подразумевает создание письменного описания того, что происходит на картинке. Они используются в самых разных сферах - от повышения доступности онлайн-контента до обеспечения поиска по изображениям и поддержки систем модерации и рекомендаций.

Однако создание точных подписей не всегда легко дается моделям искусственного интеллекта. Особенно сложно, когда изображение отличается от того, на котором обучалась модель. Многие системы создания титров в значительной степени опираются на данные обучения, поэтому при столкновении с незнакомыми сценами титры могут получиться расплывчатыми или неточными.

Чтобы решить эту проблему, исследователи разработали Re-ViLM- метод, который привносит в создание подписей к изображениям генерацию, дополненную поиском (RAG). Вместо того чтобы генерировать надпись с нуля, Re-ViLM извлекает из базы данных похожие пары изображений и текстов и использует их для вывода надписи. 

Этот подход, основанный на поиске, помогает модели обосновывать свои описания на соответствующих примерах, повышая точность и беглость. Первые результаты показывают, что Re-ViLM генерирует более естественные, контекстно-зависимые подписи, используя реальные примеры, что помогает уменьшить количество нечетких или неточных описаний.

Рис. 6. Re-ViLM улучшает подписи к изображениям, извлекая визуально-текстовые примеры.

Плюсы и минусы использования RAG для понимания визуальных данных

Вот краткий обзор преимуществ применения методов генерации с расширенным поиском для получения и использования визуальной информации: 

  • Расширенный обобщение возможности: В резюме можно включать не только текст, но и визуальные элементы (например, диаграммы тенденций или элементы инфографики).
  • Более надежный поиск и извлечение информации: Этапы поиска могут определять релевантные визуальные страницы, даже если ключевые слова отсутствуют в тексте, используя понимание на основе изображений.
  • Поддержка отсканированных, рукописных или графических документов: Конвейеры RAG, созданные с помощью VLM, могут обрабатывать содержимое, которое было бы нечитабельным для моделей, использующих только текст.

Несмотря на эти преимущества, при использовании RAG для работы с визуальными данными следует помнить о некоторых ограничениях. Вот несколько основных из них:

  • Высокие требования к вычислительным ресурсам: Для анализа изображений и текста требуется больше памяти и вычислительной мощности, что может замедлить производительность или увеличить расходы.
  • Конфиденциальность данных и проблемы безопасности: Визуальные документы, особенно в таких отраслях, как здравоохранение или финансы, могут содержать конфиденциальную информацию, которая усложняет процессы поиска и обработки.
  • Более длительное время вывода: Поскольку визуальная обработка добавляет сложности, генерирование ответов может занимать больше времени по сравнению с системами, работающими только с текстом.

Основные выводы

Генерация с расширенным извлечением информации улучшает то, как большие языковые модели отвечают на вопросы, позволяя им получать релевантную, актуальную информацию из внешних источников. В паре с компьютерным зрением эти системы могут обрабатывать не только текст, но и визуальный контент, например графики, таблицы, изображения и отсканированные документы, что позволяет получать более точные и развернутые ответы.

Такой подход делает LLM более подходящими для решения реальных задач, связанных со сложными документами. Объединяя поиск и визуальное понимание, эти модели могут более эффективно интерпретировать различные форматы и предоставлять информацию, которая будет более полезной в практических, повседневных контекстах.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий GitHub, чтобы глубже погрузиться в мир искусственного интеллекта. Готовы начать собственные проекты по компьютерному зрению? Ознакомьтесь с нашими возможностями лицензирования. Узнайте больше об ИИ в здравоохранении и компьютерном зрении в розничной торговле на страницах наших решений!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена