深圳尤洛视觉
深圳
立即加入

利用 RAG 和计算机视觉增强 AI 应用

Abirami Vina

4 分钟阅读

2025年5月28日

了解如何将检索增强生成 (RAG) 与计算机视觉相结合,以帮助 AI 系统解释文档、视觉内容和复杂的现实世界内容。

使用像 ChatGPT 或 Gemini 这样的 AI 工具正迅速成为一种常见的查找信息的方式。无论您是起草消息、总结文档还是回答问题,这些工具通常都能提供更快、更简单的解决方案。 

但是,如果您使用过几次大型语言模型 (LLM),您可能已经注意到它们的局限性。当提示高度具体或时间敏感的查询时,他们可能会自信地回答不正确的答案。

发生这种情况是因为独立的 LLM 仅依赖于它们接受训练的数据。它们无法访问最新的更新或超出该数据集的专业知识。因此,他们的答案可能已过时或不准确。

为了帮助解决这个问题,研究人员开发了一种称为 检索增强生成 (RAG) 的方法。RAG 通过使语言模型能够在响应查询时从可信来源提取新鲜、相关的信息来增强语言模型。

在本文中,我们将探讨 RAG 的工作原理,以及它如何通过检索相关的最新信息来增强 AI 工具。我们还将了解它如何与 计算机视觉(人工智能的一个领域,专注于解释视觉数据)协同工作,以帮助系统不仅理解文本,还能理解图像、布局和视觉上复杂的文档。

理解检索增强生成 (RAG)

当向 AI 聊天机器人提问时,我们通常期望的不仅仅是听起来不错的回答。理想情况下,一个好的答案应该是清晰、准确且真正有帮助的。为了实现这一点,AI 模型 需要的不仅仅是语言技能;它还需要访问正确的信息,特别是对于特定或时效性强的主题。

RAG 是一种有助于弥合这一差距的技术。它将语言模型理解和生成文本的能力与从外部来源检索相关信息的能力结合在一起。该模型不是仅仅依赖于其训练数据,而是在形成响应时主动从受信任的知识库中提取支持内容。

图 1. RAG 的主要用例。(图片由作者提供)

您可以将其想象成向某人提问,并在他们回答之前查阅可靠的参考资料。他们的回答仍然是用他们自己的话说的,但它是由最新和最相关的信息提供的。

这种方法有助于大型语言模型(LLM)提供更完整、准确且针对用户查询量身定制的答案,使其在真正注重准确性的实际应用中更加可靠。

RAG 的工作原理

RAG 通过引入检索和生成这两个关键步骤来增强大型语言模型的响应方式。首先,它从外部知识库检索相关信息。然后,它使用该信息来生成一个结构良好、具有上下文意识的响应。

让我们看一个简单的例子来了解这个过程是如何工作的。假设您正在使用 AI 助手来管理您的个人财务,并且想查看您是否达到了本月的支出目标。

当您向助手提出诸如“我这个月是否坚持了预算?”之类的问题时,该过程就开始了。系统不只依赖于训练期间学到的知识,而是使用检索器搜索您最近的财务记录(例如银行对账单或交易摘要)。它专注于理解您的问题背后的意图,并收集最相关的信息。

一旦检索到该信息,语言模型就会接管。它会处理您的问题以及从您的记录中提取的数据,以生成清晰、有用的答案。响应不是列出原始细节,而是总结您的支出,并为您提供直接、有意义的见解——例如确认您是否达到了目标,并指出关键的支出领域。

这种方法有助于 LLM 提供不仅准确,而且基于您真实、最新信息的响应,使得体验比仅使用静态训练数据的模型更有用。

图 2. 理解 RAG 的工作原理。

对多模态 RAG 系统的需求

通常,信息并不总是以纯文本形式共享。从医学扫描和图表到演示幻灯片和扫描文档,视觉效果通常带有重要的细节。主要构建用于阅读和理解文本的传统 LLM 可能难以处理此类内容。

然而,RAG可以与计算机视觉结合使用,以弥合这一差距。当两者结合在一起时,它们就形成了所谓的多模态RAG系统——一种可以处理文本和视觉效果的设置,帮助AI聊天机器人提供更准确和完整的答案。

这种方法的核心是视觉语言模型 (VLM),它旨在处理和推理这两种类型的输入。在这种设置中,RAG 从大型数据源中检索最相关的信息,而 VLM 在计算机视觉的支持下,解释图像、布局和图表。

这对于真实世界的文档尤其有用,例如扫描的表格、医疗报告或演示文稿幻灯片,其中重要的细节可能存在于文本和视觉效果中。例如,在分析包含表格和段落的图像的文档时,多模态系统可以提取视觉元素,生成它们所显示内容的摘要,并将其与周围的文本结合起来,以提供更完整和有用的响应。

图 3. 多模态 RAG 使用图像和文本来提供更好的答案。

RAG 在视觉数据中的应用 

既然我们已经讨论了什么是 RAG 以及它如何与计算机视觉协同工作,现在让我们看一些实际的例子和研究项目,这些例子和项目展示了这种方法的使用方式。

使用 VisRAG 理解视觉文档

假设您正在尝试从财务报告或扫描的法律文件中提取见解。这些类型的文件通常不仅包含文本,还包含表格、图表和布局,以帮助解释信息。一个简单的语言模型可能会忽略或误解这些视觉元素,从而导致不完整或不准确的响应。

VisRAG 由研究人员创建,旨在应对这一挑战。它是一个基于 VLM 的 RAG 管道,它将每个页面视为图像,而不是仅处理文本。这使系统能够理解内容及其视觉结构。因此,它可以找到最相关的部分,并提供更清晰、更准确且基于文档完整上下文的答案。

图 4. VisRAG 可以将文档作为图像读取,以捕获文本内容和布局。

带有 RAG 的视觉问答

视觉问答 (VQA) 是一项 AI 系统回答有关图像的问题的任务。许多现有的 VQA 系统侧重于回答有关单个文档的问题,而无需搜索其他信息——这被称为封闭设置。

VDocRAG 是一个采取更现实方法的 RAG 框架。它集成了 VQA,并能够首先检索相关文档。这在实际情况下非常有用,在实际情况下,用户的问题可能适用于许多文档中的一个,并且系统需要先找到正确的文档才能回答。为此,VDocRAG 使用 VLM 将文档分析为图像,从而保留其文本和视觉结构。

这使得VDocRAG在企业搜索、文档自动化和客户支持等应用中尤其有效。它可以帮助团队快速从复杂的、视觉格式化的文档(如手册或政策文件)中提取答案,在这些文档中,理解布局与阅读文字同样重要。

Fig 5. VDocRAG 和基于 LLM 的解决方案之间的区别。

利用 RAG 改进图像描述

图像描述生成涉及生成对图像中发生的事情的书面描述。它用于各种应用——从使在线内容更易于访问到支持图像搜索,以及支持内容审核和推荐系统。

然而,对于 AI 模型来说,生成准确的标题并不总是容易的。当图像显示的内容与模型训练的内容不同时,尤其困难。许多标题系统严重依赖训练数据,因此当面对不熟悉的场景时,它们的标题可能会变得模糊或不准确。

为了解决这个问题,研究人员开发了 Re-ViLM,这是一种将检索增强生成 (RAG) 引入图像描述的方法。Re-ViLM 不是从头开始生成标题,而是从数据库中检索相似的图像-文本对,并使用它们来指导标题输出。 

这种基于检索的方法有助于模型将其描述建立在相关示例的基础上,从而提高准确性和流畅性。早期结果表明,Re-ViLM 通过使用真实示例生成更自然、更符合上下文的标题,从而减少模糊或不准确的描述。

图 6.Re-ViLM 通过检索视觉文本示例改进图像标题。

使用 RAG 理解视觉数据的优缺点

以下是将检索增强生成技术应用于检索和使用视觉信息的好处的快速介绍: 

  • 增强的摘要功能:摘要可以包含来自视觉效果(如图表趋势或信息图元素)的见解,而不仅仅是文本。
  • 更强大的搜索和检索能力:即使文本中没有关键词,检索步骤也可以通过基于图像的理解来识别相关的视觉页面。
  • 支持扫描、手写或基于图像的文档: 由 VLM 启用的 RAG 管道可以处理仅文本模型无法读取的内容。

尽管有这些好处,但在使用 RAG 处理视觉数据时,仍然存在一些局限性。以下是一些主要的局限性:

  • 高计算要求: 分析图像和文本会占用更多的内存和处理能力,这可能会降低性能或增加成本。
  • 数据隐私和安全问题: 可视文档,尤其是在医疗保健或金融等领域,可能包含敏感信息,从而使检索和处理工作流程复杂化。
  • 更长的推理时间: 由于视觉处理增加了复杂性,与纯文本系统相比,生成响应可能需要更长的时间。

主要要点

检索增强生成正在通过允许大型语言模型从外部来源获取相关的、最新的信息来改进它们回答问题的方式。当与计算机视觉结合使用时,这些系统不仅可以处理文本,还可以处理视觉内容,如图表、表格、图像和扫描文档,从而产生更准确和全面的响应。

这种方法使 LLM 更适合涉及复杂文档的实际任务。通过结合检索和视觉理解,这些模型可以更有效地解释不同的格式,并在实际的日常环境中提供更有用的见解。

加入我们不断壮大的社区!探索我们的GitHub 仓库,以更深入地了解人工智能。准备好开始您自己的计算机视觉项目了吗?查看我们的许可选项。在我们的解决方案页面上,了解更多关于医疗保健领域的人工智能零售业中的计算机视觉的信息!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板