利用 RAG 和计算机视觉增强人工智能应用

阿比拉米-维纳

4 分钟阅读

2025 年 5 月 28 日

了解如何将检索增强生成(RAG)与计算机视觉相结合,帮助人工智能系统解读文档、视觉效果和复杂的现实世界内容。

使用 ChatGPT 或 Gemini 等人工智能工具正迅速成为一种常见的信息查找方式。无论是起草信息、总结文档还是回答问题,这些工具通常都能提供更快、更简单的解决方案。 

但是,如果您使用过几次大型语言模型 (LLM),您很可能会注意到它们的局限性。当提示您进行高度具体或时间敏感的查询时,它们可能会给出错误的答案,而且往往是自信满满地回答。

出现这种情况的原因是,独立的 LLM 只能依赖它们所训练的数据。他们无法获得数据集之外的最新更新或专业知识。因此,它们的答案可能会过时或不准确。

为了解决这个问题,研究人员开发了一种名为检索增强生成(RAG)的方法。RAG 可以增强语言模型,使其在响应查询时从可信来源获取新鲜的相关信息。

在本文中,我们将探讨 RAG 如何工作,以及它如何通过检索相关的最新信息来增强人工智能工具。我们还将了解它如何与计算机视觉(专注于解释视觉数据的人工智能领域)一起工作,帮助系统理解文本、图像、布局和视觉复杂的文档。

了解检索增强生成(RAG)

在向人工智能聊天机器人提问时,我们通常期待的不仅仅是一个听起来不错的回答。理想情况下,一个好的答案应该是清晰、准确和真正有帮助的。要做到这一点,人工智能模型需要的不仅仅是语言技能,它还需要获取正确的信息,尤其是对于特定或时间敏感的话题。

RAG 是一种有助于弥合这一差距的技术。它将语言模型理解和生成文本的能力与从外部来源检索相关信息的能力结合在一起。该模型在形成响应时,不会完全依赖其训练数据,而是会主动从可信的知识库中获取支持内容。

图 1.主要的 RAG 使用案例。图片由作者提供。

你可以把它想象成向某人提问,让他在回答之前查阅可靠的参考资料。他们的回答仍然是他们自己的话,但却参考了最相关的最新信息。

这种方法可以帮助 LLM 响应更完整、更准确、更适合用户查询的答案,使它们在准确性真正重要的实际应用中更加可靠。

了解 RAG 的工作原理

RAG 通过引入两个关键步骤:检索和生成,增强了大型语言模型的响应能力。首先,它从外部知识库中检索相关信息。然后,它使用这些信息生成格式完善、上下文感知的响应。

让我们来看一个简单的例子,看看这个过程是如何进行的。想象一下,您正在使用人工智能助手管理个人财务,并想检查自己是否没有超出本月的支出目标。

当你向助理提出 "这个月我是否遵守了预算 "这样的问题时,这个过程就开始了。系统不会只依赖培训期间学到的知识,而是使用检索器搜索您最近的财务记录(如银行对账单或交易摘要)。它专注于理解你的问题背后的意图,并收集最相关的信息。

一旦检索到这些信息,语言模型就会接手。它将处理您的问题和从您的记录中提取的数据,生成一个清晰、有用的答案。答复不是罗列原始细节,而是总结您的支出情况,为您提供直接、有意义的见解,例如确认您是否实现了目标,并指出关键支出领域。

这种方法可以帮助 LLM 提供不仅准确,而且基于您的最新真实信息的响应,使其比仅使用静态训练数据的模型更有用。

图 2.了解 RAG 的工作原理。

需要多模式 RAG 系统

通常情况下,信息并不总是以纯文本形式共享。从医学扫描和图表到演示幻灯片和扫描文件,视觉效果往往承载着重要的细节。传统的 LLM 主要是为了阅读和理解文本而设计的,在处理这类内容时会很吃力。

不过,RAG 可以与计算机视觉一起使用,弥补这一差距。当两者结合在一起时,就形成了所谓的多模态 RAG 系统--一种既能处理文本又能处理视觉效果的设置,可以帮助人工智能聊天机器人提供更准确、更完整的答案。

这种方法的核心是视觉语言模型(VLM),旨在处理和推理这两种类型的输入。在这种设置中,RAG 从大型数据源中检索最相关的信息,而 VLM 则通过计算机视觉来解释图像、布局和图表。

这对真实世界的文档尤其有用,如扫描表格、医疗报告或演示幻灯片,在这些文档中,重要的细节可能同时存在于文本和视觉效果中。例如,在分析一份包含图片、表格和段落的文档时,多模态系统可以提取视觉元素,生成其显示内容的摘要,并将其与周围的文本结合起来,从而提供更完整、更有帮助的回复。

图 3.多模态 RAG 利用图像和文本提供更好的答案。

可视数据的 RAG 应用 

既然我们已经讨论了什么是 RAG 以及它如何与计算机视觉配合使用,下面就让我们来看看一些展示如何使用这种方法的实际案例和研究项目。

使用 VisRAG 理解可视化文档

比方说,您正试图从财务报告或扫描的法律文件中提取见解。这些类型的文件通常不仅包括文本,还包括有助于解释信息的表格、图表和布局。直接的语言模型可能会忽略或误解这些视觉元素,从而导致不完整或不准确的回复。

VisRAG就是研究人员为解决这一难题而创建的。它是一种基于 VLM 的 RAG 管道,可将每个页面视为图像,而不是只处理文本。这样,系统就能理解内容及其视觉结构。因此,它可以找到最相关的部分,并根据文档的完整上下文给出更清晰、更准确的答案。

图 4.VisRAG 可以读取图像文件,捕捉文本内容和布局。

使用 RAG 进行可视化问题解答

视觉问题解答(VQA)是人工智能系统回答有关图像问题的一项任务。许多现有的视觉问题解答系统侧重于回答有关单个文档的问题,而无需搜索其他信息--这就是所谓的封闭设置。

VDocRAG是一个 RAG 框架,它采用了更现实的方法。它将 VQA 与首先检索相关文档的功能整合在一起。这在现实世界中非常有用,因为用户的问题可能适用于许多文档中的一个,而系统需要在回答之前找到正确的文档。为此,VDocRAG 使用 VLM 将文档作为图像进行分析,同时保留其文本和视觉结构。

这使得 VDocRAG 在企业搜索、文档自动化和客户支持等应用中尤其具有影响力。它可以帮助团队从复杂、可视化格式的文档(如手册或政策文件)中快速提取答案,在这些文档中,理解排版与阅读文字同样重要。

图 5.基于 VDocRAG 和 LLM 的解决方案之间的差异。

使用 RAG 改进图像标题

图像标题是对图像中的内容进行书面描述。它的应用范围很广--从使在线内容更易于访问,到为图像搜索提供动力,以及支持内容管理和推荐系统。

然而,对于人工智能模型来说,生成准确的标题并非易事。当图像显示的内容与模型训练的内容不同时,难度尤其大。许多字幕系统在很大程度上依赖于训练数据,因此在面对陌生场景时,它们的字幕可能会含糊不清或不准确。

为了解决这个问题,研究人员开发了Re-ViLM,这是一种将检索增强生成(RAG)引入图像标题制作的方法。Re-ViLM 不是从头开始生成标题,而是从数据库中检索相似的图像-文本对,并用它们来指导标题输出。 

这种基于检索的方法有助于模型根据相关实例进行描述,从而提高准确性和流畅性。早期结果表明,Re-ViLM 通过使用真实例子生成了更自然、更能感知上下文的字幕,有助于减少模糊或不准确的描述。

图 6.Re-ViLM 通过检索视觉文本示例改进图像标题。

使用 RAG 理解可视化数据的利弊

下面简要介绍一下应用检索增强生成技术检索和使用视觉信息的好处: 

  • 增强型 总结 功能:
  • 更强大的搜索和检索功能:
  • 支持扫描、手写或基于图像的文档:VLM 支持的 RAG 管道可以处理纯文本模型无法读取的内容。

尽管有这些优点,但在使用 RAG 处理可视化数据时,仍有一些限制需要注意。以下是几个主要限制:

  • 计算要求高:
  • 数据隐私 和安全问题:
  • 推理时间更长:由于视觉处理增加了复杂性,与纯文本系统相比,生成回复需要更多时间。

主要收获

检索增强生成技术正在改进大型语言模型回答问题的方式,使其能够从外部来源获取相关的最新信息。如果与计算机视觉技术相结合,这些系统不仅能处理文本,还能处理视觉内容,如图表、表格、图像和扫描文件,从而做出更准确、更全面的回答。

这种方法使 LLM 更适合实际世界中涉及复杂文档的任务。通过将检索和视觉理解结合起来,这些模型可以更有效地解释各种格式,并提供在实际日常环境中更有用的见解。

加入我们不断壮大的社区!探索我们的GitHub 存储库,深入了解人工智能。准备好开始自己的计算机视觉项目了吗?查看我们的许可选项。在我们的解决方案页面上了解更多有关医疗保健中的人工智能零售业中的计算机视觉的信息

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板