深圳Yolo 视觉
深圳
立即加入
词汇表

检索增强生成 (RAG)

探索检索增强生成(RAG)如何利用实时数据优化大型语言模型(LLMs)。学习如何使用 Ultralytics YOLO26 构建多模态管道以实现视觉 RAG。

检索增强生成(RAG)是人工智能领域的一种先进技术,通过引用其训练数据之外的权威知识库,优化大型语言模型(LLM)的输出。传统的生成模型仅依赖于其初始训练期间学到的静态信息,这可能导致过时答案或被称为幻觉的自信不准确信息。RAG通过从外部来源(如公司数据库、最新新闻或技术手册)检索相关、最新信息来弥补这一差距,并在生成响应之前将其作为上下文提供给模型。这一过程确保了AI的输出不仅在语言上连贯,而且事实准确并基于特定数据。

RAG 系统如何运作

RAG系统的架构通常涉及两个主要阶段:检索和生成。这种工作流程允许开发者维护一个基础模型,而无需昂贵的频繁再训练。

  1. 检索:当用户提交查询时,系统首先会在一个名为向量数据库的专用存储系统中执行语义搜索。该数据库包含已转换为被称为嵌入的数值表示形式的数据,这使得系统能够找到概念上相似的信息,而不仅仅是匹配关键词。
  2. 生成:在检索过程中找到的相关文档或数据片段与用户的原始问题结合。这个经过丰富处理的提示随后被发送到生成模型。模型利用这个提供的上下文来合成答案,确保响应基于检索到的事实。有关其工作原理的更深入探讨,IBM 提供了一份关于 RAG 工作流的全面指南

视觉 RAG:集成计算机视觉

尽管RAG传统上是基于文本的,但多模态学习的兴起引入了“视觉RAG”。在这种场景下,计算机视觉模型充当检索机制。它们分析图像或视频流以提取结构化文本数据——例如对象名称、数量或活动——然后将其输入到LLM中,以回答有关视觉场景的问题。

例如,开发人员可以使用YOLO26来detect图像中的物体,并将该物体列表传递给文本模型以生成描述性报告。

from ultralytics import YOLO

# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")

# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."

print(context_string)
# Output example: "The scene contains: bus, person, person, person."

实际应用

RAG正在通过使AI代理能够安全地访问专有或实时数据来改变各行各业。

  • 企业知识库:公司使用RAG构建内部聊天机器人,回答员工关于人力资源政策或技术文档的问题。通过将大型语言模型(LLM)连接到实时文档存储库,系统避免提供过时的政策信息。有关企业实施的更多信息,请参阅Google Cloud关于Vertex AI中RAG的概述
  • 临床决策支持:医疗AI中,RAG系统可以检索患者病史和最新医学研究论文,以协助医生诊断,确保建议考虑最新的临床研究。
  • 智能零售助手:零售AI应用利用RAG来检查实时库存数据库。如果客户向聊天机器人询问“你们有10码的这款跑鞋吗?”,模型会在回答前检索实时库存水平,从而避免因缺货而造成的沮丧。

RAG 与微调

区分RAG与微调至关重要,因为它们解决的是不同的问题。

  • RAG(检索增强生成):最适合访问动态的、频繁变化的数据(例如,股票价格、新闻)或公共训练集中不存在的私有数据。它侧重于在运行时提供新信息
  • 微调:最适合调整模型的行为、风格或术语。它涉及在特定数据集上更新模型权重。虽然微调有助于模型学习特定的语言模式(如医学术语),但它不提供对实时事实的访问。请参阅OpenAI关于微调与RAG的指南以获取决策框架。

相关概念

  • LangChain: 一个流行的开源框架,专门设计用于通过将检索器和LLM串联起来,简化RAG应用的创建。
  • 知识图谱: 一种结构化的数据表示方式,可用作检索源,提供比简单向量相似性更具上下文丰富性的关系。
  • 提示工程这是一种设计输入以引导模型输出的艺术。检索增强生成(RAG)本质上是提示工程的一种自动化形式,其中“提示”通过编程方式用检索到的数据进行丰富。
  • Ultralytics Platform: 尽管 RAG 处理文本生成方面,但此类平台对于管理将视觉数据输入多模态 RAG 流水线的视觉模型的数据预处理和训练至关重要。

让我们一起共建AI的未来!

开启您的机器学习未来之旅