Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Улучшение ИИ-приложений с помощью RAG и компьютерного зрения

Узнай, как объединение генерации с дополнением извлечения (RAG) и компьютерного зрения помогает ИИ-системам интерпретировать документы, визуальные данные и сложный контент из реального мира.

АБАбирами Вина
4 min read
Улучшение ИИ-приложений с помощью RAG и компьютерного зрения

Использование ИИ-инструментов, таких как ChatGPT или Gemini, быстро становится привычным способом поиска информации. Пишешь ли ты сообщение, резюмируешь документ или отвечаешь на вопрос — эти инструменты часто предлагают более быстрое и простое решение.

Но если ты уже несколько раз использовал большие языковые модели (LLM), то наверняка заметил их ограничения. При получении высокоспецифичных или зависящих от времени запросов они могут отвечать неверно, часто делая это весьма уверенно.

Это происходит потому, что автономные LLM полагаются исключительно на данные, на которых они обучались. У них нет доступа к последним обновлениям или специализированным знаниям за пределами этого набора данных. В результате их ответы могут быть устаревшими или неточными.

Чтобы помочь решить эту проблему, исследователи разработали метод под названием генерация с дополнением выборкой (RAG). RAG улучшает языковые модели, позволяя им при ответе на запросы извлекать свежую, релевантную информацию из надежных источников.

В этой статье мы рассмотрим, как работает RAG и как он улучшает ИИ-инструменты за счет извлечения актуальной информации. Мы также узнаем, как он работает в сочетании с компьютерным зрением — областью искусственного интеллекта, ориентированной на интерпретацию визуальных данных, помогая системам понимать не только текст, но и изображения, макеты и визуально сложные документы.

Link to this sectionПонимание генерации с дополнением выборкой (RAG)#

Задавая вопрос ИИ-чат-боту, мы обычно ожидаем чего-то большего, чем просто приятный на слух ответ. В идеале хороший ответ должен быть четким, точным и по-настоящему полезным. Чтобы добиться этого, ИИ-модели нужны не только языковые навыки, но и доступ к правильной информации, особенно для специфических или чувствительных ко времени тем.

RAG — это метод, который помогает преодолеть этот разрыв. Он объединяет способность языковой модели понимать и генерировать текст с возможностью извлекать релевантную информацию из внешних источников. Вместо того чтобы полагаться только на свои обучающие данные, модель при формировании ответа активно подтягивает вспомогательный контент из надежных баз знаний.

Основные сценарии использования RAG

Рис. 1. Основные варианты использования RAG. Изображение автора.

Ты можешь представить это так: ты задаешь кому-то вопрос, и перед ответом он обращается к надежному справочнику. Ответ все еще звучит своими словами, но он подкреплен самой актуальной и подходящей информацией.

Этот подход помогает LLM предоставлять ответы, которые являются более полными, точными и адаптированными к запросу пользователя, что делает их гораздо более надежными в реальных сценариях, где точность действительно важна.

Link to this sectionВзгляд на то, как работает RAG#

RAG улучшает работу большой языковой модели, добавляя два ключевых этапа: поиск и генерацию. Сначала система извлекает релевантную информацию из внешней базы знаний. Затем она использует эту информацию для создания грамотного и контекстуально обусловленного ответа.

Давай рассмотрим простой пример, чтобы понять, как работает этот процесс. Представь, что ты используешь ИИ-ассистента для управления личными финансами и хочешь проверить, уложился ли ты в свой месячный бюджет.

Процесс начинается, когда ты задаешь ассистенту вопрос типа: «Уложился ли я в бюджет в этом месяце?». Вместо того чтобы полагаться только на то, что он узнал при обучении, система использует поисковик для просмотра твоих последних финансовых записей (например, банковских выписок или сводок транзакций). Система фокусируется на понимании намерения, стоящего за твоим вопросом, и собирает самую актуальную информацию.

Как только информация получена, в дело вступает языковая модель. Она обрабатывает и твой вопрос, и данные, извлеченные из твоих записей, чтобы сгенерировать четкий и полезный ответ. Вместо простого перечисления сырых данных, ответ резюмирует твои траты и дает прямое, осмысленное заключение — например, подтверждает, достиг ли ты своей цели, и указывает на основные статьи расходов.

Этот подход помогает LLM предоставлять ответы, которые не только точны, но и основаны на твоей реальной и актуальной информации, что делает этот опыт гораздо более полезным, чем работу модели, использующей только статические обучающие данные.

Понимание того, как работает RAG

Рис. 2. Понимание того, как работает RAG.

Link to this sectionПотребность в мультимодальных системах RAG#

Как правило, информация не всегда представлена в виде простого текста. От медицинских снимков и диаграмм до слайдов презентаций и отсканированных документов — визуальные материалы часто несут важные детали. Традиционные LLM, которые в основном созданы для чтения и понимания текста, могут испытывать трудности с таким контентом.

Однако RAG можно использовать вместе с компьютерным зрением, чтобы заполнить этот пробел. Когда они объединяются, получается так называемая мультимодальная система RAG — настройка, которая может обрабатывать как текст, так и визуальные данные, помогая ИИ-чат-ботам давать более точные и полные ответы.

В основе этого подхода лежат зрительно-языковые модели (VLM), которые предназначены для обработки и логического вывода на основе обоих типов ввода. В этой настройке RAG извлекает наиболее релевантную информацию из крупных источников данных, а VLM, поддерживаемая компьютерным зрением, интерпретирует изображения, макеты и диаграммы.

Это особенно полезно для реальных документов, таких как отсканированные формы, медицинские отчеты или слайды презентаций, где важные детали могут находиться как в тексте, так и в визуальных элементах. Например, при анализе документа, который включает изображения наряду с таблицами и абзацами, мультимодальная система может извлечь визуальные элементы, создать краткое описание того, что они показывают, и объединить это с окружающим текстом, чтобы предоставить более полный и полезный ответ.

Мультимодальный RAG, использующий изображения и текст для предоставления более точных ответов

Рис. 3. Мультимодальный RAG использует изображения и текст для предоставления лучших ответов.

Link to this sectionПрименение RAG для визуальных данных#

Теперь, когда мы обсудили, что такое RAG и как он работает с компьютерным зрением, давай рассмотрим несколько реальных примеров и исследовательских проектов, которые демонстрируют, как используется этот подход.

Link to this sectionПонимание визуальных документов с помощью VisRAG#

Допустим, ты пытаешься извлечь инсайты из финансового отчета или отсканированного юридического документа. Такие файлы часто содержат не только текст, но и таблицы, графики и макеты, которые помогают объяснить информацию. Простая языковая модель может упустить из виду или неверно истолковать эти визуальные элементы, что приведет к неполным или неточным ответам.

VisRAG был создан исследователями для решения этой проблемы. Это VLM-базированный RAG-конвейер, который рассматривает каждую страницу как изображение, а не просто обрабатывает текст. Это позволяет системе понимать как контент, так и его визуальную структуру. В результате она может находить самые важные части и давать ответы, которые более ясны, точны и основаны на полном контексте документа.

VisRAG: чтение документов как изображений для захвата контента и макета

Рис. 4. VisRAG может читать документы как изображения, чтобы запечатлеть текстовое содержание и макет.

Link to this sectionВизуальные ответы на вопросы с помощью RAG#

Визуальные ответы на вопросы (VQA) — это задача, в которой ИИ-система отвечает на вопросы об изображениях. Многие существующие системы VQA фокусируются на ответах на вопросы об одном документе без необходимости поиска дополнительной информации — это известно как закрытая настройка.

VDocRAG — это RAG-фреймворк, который использует более реалистичный подход. Он объединяет VQA с возможностью предварительного поиска релевантных документов. Это полезно в реальных ситуациях, когда вопрос пользователя может относиться к одному из множества документов, и системе нужно найти подходящий, прежде чем отвечать. Для этого VDocRAG использует VLM для анализа документов как изображений, сохраняя при этом их текст и визуальную структуру.

Это делает VDocRAG особенно эффективным в таких приложениях, как корпоративный поиск, автоматизация документооборота и клиентская поддержка. Он может помочь командам быстро извлекать ответы из сложных, визуально оформленных документов, таких как руководства или документы с правилами, где понимание макета так же важно, как и чтение слов.

Разница между VDocRAG и решениями на основе LLM

Рис. 5. Разница между VDocRAG и решениями на основе LLM.

Link to this sectionУлучшение описания изображений с помощью RAG#

Описание изображений (image captioning) включает генерацию письменного описания того, что происходит на изображении. Оно используется в самых разных приложениях — от обеспечения доступности онлайн-контента до работы поиска по изображениям, а также поддержки модерации контента и рекомендательных систем.

Однако генерация точных описаний не всегда проста для ИИ-моделей. Это особенно трудно, когда изображение показывает что-то отличное от того, на чем модель обучалась. Многие системы описания сильно зависят от обучающих данных, поэтому при встрече с незнакомыми сценами их описания могут быть расплывчатыми или неточными.

Чтобы решить эту проблему, исследователи разработали Re-ViLM — метод, который привносит генерацию с дополнением выборкой (RAG) в описание изображений. Вместо того чтобы генерировать описание с нуля, Re-ViLM извлекает похожие пары «изображение-текст» из базы данных и использует их для направления вывода описания.

Этот подход, основанный на поиске, помогает модели подкреплять свои описания релевантными примерами, улучшая как точность, так и естественность языка. Ранние результаты показывают, что Re-ViLM генерирует более естественные, контекстно-зависимые описания, используя реальные примеры, что помогает уменьшить количество расплывчатых или неточных описаний.

Re-ViLM: улучшение подписей к изображениям путем поиска визуально-текстовых примеров

Рис. 6. Re-ViLM улучшает описания изображений путем извлечения визуально-текстовых примеров.

Link to this sectionПлюсы и минусы использования RAG для понимания визуальных данных#

Вот краткий обзор преимуществ применения методов генерации с дополнением выборкой для поиска и использования визуальной информации:

  • Улучшенные возможности резюмирования: Резюме могут включать инсайты из визуальных материалов (например, тенденции на графиках или элементы инфографики), а не только текст.
  • Более надежный поиск и извлечение: Этапы поиска могут идентифицировать релевантные визуальные страницы, даже если в тексте отсутствуют ключевые слова, используя визуальное понимание.
  • Поддержка отсканированных, рукописных или основанных на изображениях документов: RAG-конвейеры, поддерживаемые VLM, могут обрабатывать контент, который был бы нечитаемым для текстовых моделей.

Несмотря на эти преимущества, есть еще несколько ограничений, которые стоит учитывать при использовании RAG для работы с визуальными данными. Вот несколько основных из них:

  • Высокие вычислительные требования: Анализ как изображений, так и текста требует больше памяти и вычислительной мощности, что может замедлить производительность или увеличить затраты.
  • Проблемы конфиденциальности данных и безопасности: Визуальные документы, особенно в таких секторах, как здравоохранение или финансы, могут содержать конфиденциальную информацию, что усложняет рабочие процессы извлечения и обработки.
  • Увеличенное время вывода (инференса): Поскольку визуальная обработка добавляет сложности, генерация ответов может занимать больше времени по сравнению с текстовыми системами.

Link to this sectionОсновные выводы#

Генерация с дополнением выборкой улучшает то, как большие языковые модели отвечают на вопросы, позволяя им получать релевантную и актуальную информацию из внешних источников. В сочетании с компьютерным зрением эти системы могут обрабатывать не только текст, но и визуальный контент, такой как графики, таблицы, изображения и отсканированные документы, что приводит к более точным и всесторонним ответам.

Этот подход делает LLM лучше подходящими для реальных задач, связанных со сложными документами. Объединяя поиск и визуальное понимание, эти модели могут эффективнее интерпретировать разнообразные форматы и предоставлять инсайты, которые более полезны в практических повседневных контекстах.

Присоединяйся к нашему растущему сообществу! Изучи наш репозиторий на GitHub, чтобы глубже погрузиться в ИИ. Готов начать свои собственные проекты по компьютерному зрению? Ознакомься с нашими вариантами лицензирования. Узнай больше об ИИ в здравоохранении и компьютерном зрении в ритейле на наших страницах решений!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения