绿色检查
链接复制到剪贴板

利用 RAG 和计算机视觉增强 AI 应用

了解如何将检索增强生成 (RAG) 与计算机视觉相结合,帮助 AI 系统解释文档、视觉效果和复杂的现实世界内容。

使用 AI 工具,例如ChatGPT 或 Gemini 正迅速成为一种常用的信息查找方式。无论您是起草消息、总结文档还是回答问题,这些工具通常都能提供更快捷、更轻松的解决方案。 

但如果你用过大型语言模型 (LLM)几次,你可能已经注意到它们的局限性。当被问到高度具体或时间敏感的问题时,它们可能会给出错误的答案,而且通常很自信。

发生这种情况的原因是,独立的法学硕士 (LLM) 仅依赖于其训练数据。他们无法获取该数据集之外的最新更新或专业知识。因此,他们的答案可能过时或不准确。

为了解决这个问题,研究人员开发了一种名为检索增强生成(RAG)的方法。RAG 通过使语言模型在响应查询时从可信来源提取最新的相关信息来增强其功能。

在本文中,我们将探讨 RAG 的工作原理,以及它如何通过检索相关的最新信息来增强 AI 工具。我们还将探讨它如何与计算机视觉(专注于解读视觉数据的人工智能领域)协同工作,帮助系统不仅理解文本,还能理解图像、布局和视觉复杂的文档。

理解检索增强生成 (RAG)

当我们向AI聊天机器人提问时,我们通常期望的不仅仅是一个听起来不错的答案。理想情况下,一个好的答案应该清晰、准确且真正有用。为了实现这一点, AI模型需要的不仅仅是语言技能;它还需要获取正确的信息,尤其是针对特定或时效性强的话题。

RAG 是一种有助于弥合这一差距的技术。它将语言模型理解和生成文本的能力与从外部来源检索相关信息的能力结合在一起。该模型不再仅仅依赖于训练数据,而是在形成响应时主动从可信知识库中提取支持内容。

图 1. RAG 关键用例。图片由作者提供。

你可以把它想象成问某人一个问题,让他们在回答之前先查阅可靠的参考资料。他们的答案仍然是他们自己的话,但却包含了最相关、最新的信息。

这种方法有助于 LLM 提供更完整、更准确、更符合用户查询的答案,使其在准确性真正重要的实际应用中更加可靠。

了解 RAG 的工作原理

RAG 通过引入两个关键步骤(检索和生成)来增强大型语言模型的响应能力。首先,它从外部知识库中检索相关信息。然后,它利用这些信息生成格式良好、上下文感知的响应。

让我们看一个简单的例子来了解这个过程是如何运作的。假设你正在使用人工智能助手管理你的个人财务,并想检查你是否达到了本月的支出目标。

这个过程始于你向助手提出一个问题,例如“我这个月是否遵守了预算?”。系统不会仅仅依赖训练过程中学到的知识,而是使用检索器搜索你最近的财务记录(例如银行对账单或交易摘要)。它专注于理解你问题背后的意图,并收集最相关的信息。

检索到这些信息后,语言模型将接管工作。它会处理您的问题以及从您的记录中提取的数据,从而生成清晰实用的答案。答案并非罗列原始细节,而是总结您的支出情况,并为您提供直接、有意义的洞察,例如确认您是否达到了目标,并指出关键的支出领域。

这种方法有助于 LLM 提供不仅准确而且基于真实、最新信息的答复,使体验比仅使用静态训练数据的模型更有用。

图 2.了解 RAG 的工作原理。

对多模式 RAG 系统的需求

通常,信息并非总是以纯文本形式共享。从医学扫描和图表到演示文稿和扫描文档,视觉内容通常包含重要的细节。传统的法学硕士课程主要以阅读和理解文本为目的,因此处理此类内容可能会遇到困难。

然而,RAG 可以与计算机视觉结合使用来弥补这一差距。当两者结合在一起时,它们就形成了所谓的多模态 RAG 系统——一种可以同时处理文本和视觉信息的系统,帮助 AI 聊天机器人提供更准确、更完整的答案。

该方法的核心是视觉语言模型 (VLM) ,旨在处理和推理这两种类型的输入。在此设置中,RAG 从大型数据源中检索最相关的信息,而由计算机视觉支持的 VLM 则负责解释图像、布局和图表。

这对于现实世界中的文档尤其有用,例如扫描表格、医疗报告或演示文稿,因为其中的关键细节可能同时存在于文本和视觉元素中。例如,在分析包含图片、表格和段落的文档时,多模态系统可以提取视觉元素,生成其内容的摘要,并将其与周围的文本相结合,从而提供更完整、更有用的响应。

图 3.多模式 RAG 使用图像和文本来提供更好的答案。

RAG 在视觉数据中的应用 

现在我们已经讨论了什么是 RAG 以及它如何与计算机视觉协同工作,让我们看一些现实世界的例子和研究项目,展示如何使用这种方法。

使用 VisRAG 理解视觉文档

假设您尝试从财务报告或扫描的法律文件中提取见解。这些类型的文件通常不仅包含文本,还包含有助于解释信息的表格、图表和布局。简单的语言模型可能会忽略或误解这些视觉元素,从而导致响应不完整或不准确。

VisRAG是由研究人员为应对这一挑战而创建的。它是一个基于 VLM 的 RAG 流程,将每个页面视为图像,而不仅仅是处理文本。这使得系统能够理解内容及其视觉结构。因此,它可以找到最相关的部分,并给出更清晰、更准确且基于文档完整上下文的答案。

图 4. VisRAG 可以将文档读取为图像以捕获文本内容和布局。

使用 RAG 进行视觉问答

视觉问答 (VQA) 是一项 AI 系统回答与图像相关的问题的任务。许多现有的 VQA 系统专注于回答与单个文档相关的问题,而无需搜索其他信息——这被称为封闭式设置。

VDocRAG是一个采用更切合实际方法的 RAG 框架。它集成了 VQA 和优先检索相关文档的功能。这在实际情况下非常有用,因为用户的问题可能适用于众多文档中的某一个,而系统需要先找到正确的文档才能给出答案。为此,VDocRAG 使用 VLM 将文档作为图像进行分析,同时保留其文本和视觉结构。

这使得 VDocRAG 在企业搜索、文档自动化和客户支持等应用中尤其具有影响力。它可以帮助团队快速从复杂的、视觉格式的文档(如手册或政策文件)中提取答案,在这些文档中,理解布局与阅读文字同样重要。

图 5. VDocRAG 和基于 LLM 的解决方案之间的区别。

使用 RAG 改进图像字幕

图像字幕技术涉及生成图像中事件的书面描述。它广泛应用于各种领域,从提升在线内容的可访问性,到支持图像搜索,再到支持内容审核和推荐系统。

然而,对于人工智能模型来说,生成准确的字幕并非易事。当图像显示的内容与模型训练时的内容不同时,生成字幕尤其困难。许多字幕系统严重依赖训练数据,因此当面对不熟悉的场景时,它们的字幕可能会显得模糊或不准确。

为了解决这个问题,研究人员开发了Re-ViLM ,这是一种将检索增强生成 (RAG) 引入图像字幕生成的方法。Re-ViLM 并非从头生成字幕,而是从数据库中检索相似的图文对,并利用它们来指导字幕输出。 

这种基于检索的方法有助于模型将其描述建立在相关示例中,从而提高准确性和流畅性。早期结果表明,Re-ViLM 能够使用真实示例生成更自然、更贴近上下文的字幕,从而减少模糊或不准确的描述。

图 6.Re -ViLM 通过检索视觉文本示例来改进图像标题。

使用 RAG 理解视觉数据的利弊

下面我们来简单了解一下应用检索增强生成技术来检索和使用视觉信息的好处: 

  • 增强的摘要功能:摘要可以结合视觉效果(如图表趋势或信息图元素)的见解,而不仅仅是文本。
  • 更强大的搜索和检索:即使文本中没有出现关键词,检索步骤也可以通过基于图像的理解来识别相关的视觉页面。
  • 支持扫描、手写或基于图像的文档: VLM 支持的 RAG 管道可以处理纯文本模型无法读取的内容。

尽管有这些好处,但在使用 RAG 处理可视化数据时,仍然需要注意一些限制。以下是一些主要限制:

  • 高计算要求:分析图像和文本会使用更多的内存和处理能力,这会降低性能或增加成本。
  • 数据隐私和安全问题:视觉文档,尤其是在医疗保健或金融等领域,可能包含敏感信息,这会使检索和处理工作流程变得复杂。
  • 推理时间更长:由于视觉处理增加了复杂性,与纯文本系统相比,生成响应可能需要更多时间。

主要收获

检索增强生成技术正在改进大型语言模型的回答问题能力,因为它允许大型语言模型从外部来源获取相关的最新信息。与计算机视觉技术相结合,这些系统不仅可以处理文本,还可以处理视觉内容,例如图表、表格、图像和扫描文档,从而提供更准确、更全面的响应。

这种方法使 LLM 更适合处理涉及复杂文档的实际任务。通过将检索和视觉理解相结合,这些模型可以更有效地解释各种格式,并提供在实际日常情境中更有用的见解。

加入我们不断壮大的社区!探索我们的GitHub 代码库,深入了解 AI。准备好启动您自己的计算机视觉项目了吗?查看我们的许可选项。在我们的解决方案页面上,了解更多关于医疗保健领域 AI零售领域计算机视觉的信息

LinkedIn 徽标Twitter 徽标Facebook 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅