利用 RAG 和计算机视觉增强 AI 应用
了解将检索增强生成 (RAG) 与计算机视觉相结合如何帮助 AI 系统解读文档、视觉内容和复杂的现实世界内容。

使用像 ChatGPT 或 Gemini 这样的 AI 工具正迅速成为查找信息的常用方式。无论是在起草消息、总结文档还是回答问题,这些工具往往能提供更快、更简单的解决方案。
但如果你使用过 大语言模型 (LLMs) 几次,可能已经注意到了它们的局限性。当被问及高度具体或有时效性的问题时,它们给出的回答往往不够准确,尽管表现得十分自信。
之所以出现这种情况,是因为独立的 LLM 仅依赖于其训练数据。它们无法获取该数据集之外的最新更新或专业知识。因此,它们的回答可能会过时或不准确。
为了解决这个问题,研究人员开发了一种称为 检索增强生成 (RAG) 的方法。RAG 通过使语言模型在回答查询时能够从可信来源提取新鲜、相关的信息来增强其能力。
在本文中,我们将探讨 RAG 的工作原理及其如何通过检索相关、最新的信息来增强 AI 工具。我们还将研究它如何与 计算机视觉(一种专注于解析视觉数据的人工智能领域)协同工作,以帮助系统不仅理解文本,还能理解图像、布局和视觉上复杂的文档。
Link to this section理解检索增强生成 (RAG)#
当向 AI 聊天机器人提问时,我们通常期望得到的不仅仅是一个听起来不错的回答。理想情况下,好的回答应该是清晰、准确且真正有帮助的。要实现这一点,AI 模型 需要的不仅仅是语言技能;它还需要获取正确的信息,特别是在处理具体或有时效性的主题时。
RAG 是一种有助于弥合这一差距的技术。它将语言模型理解和生成文本的能力与从外部来源检索相关信息的能力结合在一起。模型在形成回答时,不再仅依赖其训练数据,而是主动从可信的知识库中提取支撑内容。

图 1. 关键 RAG 使用案例。图片来源:作者。
你可以把它想象成在回答某人的问题之前,先让他们查阅可靠的参考资料。他们的回答仍然是用自己的话表达,但得到了最相关和最新信息的支撑。
这种方法有助于 LLM 提供更完整、准确且针对用户查询定制的回答,使其在真正需要准确性的实际应用中更加可靠。
Link to this sectionRAG 工作原理概览#
RAG 通过引入检索和生成这两个关键步骤,增强了大语言模型的响应方式。首先,它从外部知识库中检索相关信息。然后,它利用这些信息来生成格式良好、具有上下文感知的回答。
让我们看一个简单的例子来了解这个过程是如何运作的。想象一下,你正在使用 AI 助手管理你的个人 财务,并想核实自己本月的支出是否在目标范围内。
该过程始于你询问助手诸如“我本月是否按预算支出了?”之类的问题。系统不会仅依赖其训练中学到的知识,而是使用检索器来搜索你最新的财务记录(如银行对账单或交易摘要)。它专注于理解你问题的意图,并收集最相关的信息。
一旦检索到该信息,语言模型就会接管。它会处理你的问题和你记录中提取的数据,以生成清晰、有用的回答。该回答不会罗列原始细节,而是总结你的支出并给你一个直接、有意义的见解——例如确认你是否达标,并指出主要的支出领域。
这种方法有助于 LLM 提供不仅准确,而且基于你真实、最新信息的回答,使得体验比仅使用静态训练数据的模型有用得多。

图 2. 理解 RAG 的工作原理。
Link to this section多模态 RAG 系统的需求#
通常情况下,信息并不总是以纯文本形式共享。从医学扫描图、图表到演示幻灯片和扫描文档,视觉信息往往包含重要细节。主要为读取和理解文本而构建的传统 LLM 在处理此类内容时可能会感到吃力。
然而,RAG 可以与计算机视觉结合使用来弥合这一差距。当两者结合时,它们形成了所谓的多模态 RAG 系统——一种既能处理文本又能处理视觉内容的架构,从而帮助 AI 聊天机器人提供更准确、更完整的回答。
这种方法的核心是 视觉语言模型 (VLMs),它们旨在处理和推理这两种类型的输入。在这种架构下,RAG 从大型数据源中检索最相关的信息,而由计算机视觉支持的 VLM 则负责解释图像、布局和图表。
这对于扫描表格、医疗报告或演示幻灯片等现实文档特别有用,因为其中重要的细节可能存在于文本和视觉信息中。例如,在分析包含图像、表格和段落的文档时,多模态系统可以提取视觉元素,总结其展示的内容,并将这些信息与周边文本结合起来,从而提供更完整、更有帮助的回答。

图 3. 多模态 RAG 使用图像和文本提供更好的回答。
Link to this sectionRAG 在视觉数据中的应用#
现在我们已经讨论了什么是 RAG 以及它如何与计算机视觉协同工作,让我们看看一些展示这种方法如何被应用的真实案例和研究项目。
Link to this section使用 VisRAG 理解视觉文档#
假设你试图从财务报告或扫描的 法律文档 中提取见解。这些类型的文件通常不仅包含文本,还包含帮助解释信息的表格、图表和布局。简单的语言模型可能会忽略或误解这些视觉元素,导致回答不完整或不准确。
VisRAG 是研究人员为应对这一挑战而创建的。它是一个基于 VLM 的 RAG 流水线,将每一页视为图像,而不是仅仅处理文本。这使得系统能够同时理解内容及其视觉结构。因此,它可以找到最相关的部分,并给出更清晰、更准确且基于文档完整上下文的回答。

图 4. VisRAG 可以将文档读取为图像,以捕捉文本内容和布局。
Link to this section带有 RAG 的视觉问答#
视觉问答 (VQA) 是指 AI 系统回答关于图像的问题的任务。许多现有的 VQA 系统专注于在不需要搜索额外信息的情况下回答关于单个文档的问题——这被称为封闭式场景。
VDocRAG 是一种采用更现实方法的 RAG 框架。它将 VQA 与首先检索相关文档的能力集成在一起。这在现实世界的场景中非常有用,比如用户的提问可能适用于多个文档中的一个,系统需要在回答之前找到正确的文档。为了做到这一点,VDocRAG 使用 VLM 将文档作为图像进行分析,保留其文本和视觉结构。
这使得 VDocRAG 在企业搜索、文档自动化和 客户支持 等应用中特别有影响力。它可以帮助团队快速从复杂、视觉格式化的文档(如手册或政策文件)中提取答案,在这些文档中,理解布局与阅读文字同样重要。

图 5. VDocRAG 和基于 LLM 的解决方案之间的区别。
Link to this section使用 RAG 改进图像描述#
图像描述 涉及生成图像中正在发生的事情的书面描述。它被广泛应用于各种场景——从提高在线内容的可访问性,到驱动图像搜索,以及支持内容审核和推荐系统。
然而,生成准确的描述对 AI 模型来说并不总是容易的。当图像显示的内容与模型训练时的内容不同时,这一点尤为困难。许多描述系统严重依赖训练数据,因此在面对不熟悉的场景时,生成的描述可能含糊不清或不准确。
为了解决这个问题,研究人员开发了 Re-ViLM,这是一种将检索增强生成 (RAG) 引入图像描述的方法。Re-ViLM 不再从头开始生成描述,而是从数据库中检索相似的图像-文本对,并使用它们来指导描述的输出。
这种基于检索的方法有助于模型将其描述建立在相关示例的基础上,从而提高准确性和流畅性。初步结果表明,Re-ViLM 通过使用真实示例生成了更自然、更具上下文感的描述,从而减少了模糊或不准确的描述。

图 6. Re-ViLM 通过检索视觉-文本示例来改进图像描述。
Link to this section使用 RAG 处理视觉数据的优缺点#
以下是应用检索增强生成技术来检索和利用视觉信息带来的好处的简要概述:
- 增强的 总结 能力: 总结可以结合来自视觉信息的见解(如趋势图或信息图元素),而不仅仅是文本。
- 更强大的搜索和检索: 即使文本中不存在关键词,检索步骤也可以利用基于图像的理解来识别相关的视觉页面。
- 支持扫描、手写或基于图像的文档: 由 VLM 支持的 RAG 流水线可以处理仅支持文本的模型无法读取的内容。
尽管有这些好处,但在使用 RAG 处理视觉数据时,仍有一些局限性需要注意。以下是其中几个主要问题:
- 计算要求高: 分析图像和文本会占用更多的内存和处理能力,这可能会减慢性能或增加成本。
- 数据隐私 和安全问题: 视觉文档,特别是在医疗保健或金融等领域,可能包含敏感信息,这增加了检索和处理工作流的复杂性。
- 推理时间更长: 由于视觉处理增加了复杂性,与纯文本系统相比,生成回答可能需要更多时间。
Link to this section关键要点#
检索增强生成通过允许大语言模型从外部来源获取相关、最新的信息,正在改进它们回答问题的方式。当与计算机视觉配对时,这些系统不仅可以处理文本,还可以处理视觉内容,如图表、表格、图像和扫描文档,从而带来更准确和全面的回答。
这种方法使 LLM 更适合涉及复杂文档的实际任务。通过结合检索和视觉理解,这些模型可以更有效地解释多样化的格式,并提供在实际日常环境中更有用的见解。
加入我们不断成长的 社区!浏览我们的 GitHub 存储库 以深入了解 AI。准备好开始你自己的计算机视觉项目了吗?查看我们的 许可选项。在我们的解决方案页面上发现更多关于 医疗保健 AI 和 零售计算机视觉 的信息!






