深圳Yolo 视觉
深圳
立即加入
词汇表

Agentic RAG

探索 Agentic RAG 如何通过自主推理增强 AI。了解 Ultralytics YOLO26 和 Ultralytics Platform 如何驱动智能检索和视觉能力。

Agentic Retrieval-Augmented Generation (Agentic RAG) 是一种先进的人工智能 (AI)架构,通过集成自主AI智能体来增强传统检索系统。尽管标准RAG管道以线性的“检索-生成”序列运行,但Agentic RAG使大型语言模型 (LLM)能够充当智能协调器。该智能体可以独立分析用户的提示,判断是否需要外部信息,制定多个搜索查询,评估检索到的数据,并迭代地完善其研究,直到它汇编出全面而准确的答案。通过利用函数调用和工具使用能力,这些系统动态地将查询路由到各种数据库、API和分析工具,在处理复杂的多步骤问题时,显著减少LLM中的幻觉

Agentic RAG 系统的工作原理

Agentic RAG的核心创新在于其循环和推理能力。主流的智能体AI框架将这一过程构建为动态、自主的工作流:

  • 查询规划与路由: 智能体将复杂问题分解为更小、更易管理的子任务,并将每个子任务路由到最合适的工具或向量数据库
  • 迭代检索: 与静态检索不同,代理会审查已获取的文档。如果上下文不足,它会重新制定搜索策略并再次查询。
  • 工具集成: 智能体可以编写和执行代码、进行数学运算,或触发机器学习 (ML)模型以即时合成新数据。

Agentic RAG 与 标准 RAG

为了实现稳健的生成式管道,区分 Agentic RAG 与其基本概念至关重要:

  • 标准检索增强生成 (RAG): 它以单次通过的方式运行。它根据语义相似性检索文档并生成响应。它难以处理需要通过多个步骤综合不同数据源的复杂逻辑。
  • Agentic RAG:引入了决策和循环机制。该代理评估检索质量,并可在最终生成之前触发后续搜索或不同的工具。
  • 多模态RAG: 专注于检索多样化的数据类型(图像、文本、视频)。代理RAG可以控制多模态RAG管道,决定何时搜索视觉数据库而非文本文档。

实际应用

Agentic RAG正在通过自动化深度研究和复杂的故障排除任务来改变行业,这些任务模仿人类的分析推理能力。

  • 企业知识合成: 在企业环境中,代理可能会收到一个提示,要求“总结我们第三季度的业绩并与我们主要竞争对手的最新收益进行比较”。代理会自动查询内部财务数据库,实时搜索竞争对手的备案文件,使用计算器工具分析数据,并起草一份全面的简报。
  • 自动化质量检测: 在制造业中,代理可以负责识别装配故障的根本原因。它可以触发一个计算机视觉 (CV)模型来检查实时摄像头馈送,查询历史维护日志,并根据视觉和文本证据综合诊断报告。

将视觉 AI 集成到智能体工作流中

视觉模型是与物理世界交互的 Agentic RAG 系统的强大感知工具。例如,智能体可以使用 Ultralytics YOLO26 动态检索图像或视频流中的视觉上下文,以回答用户查询。开发者可以使用 Ultralytics Platform 管理这些定制视觉工具的数据标注和训练。

以下Python示例演示了AI代理如何通过编程方式调用YOLO26,从图像中提取结构化观测结果,为其下一步推理收集事实上下文。

from ultralytics import YOLO

# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")

# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")

# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")

通过将高性能视觉模型与推理引擎连接,Agentic RAG 弥合了静态知识检索与动态、真实世界 空间智能 之间的鸿沟。要深入了解自主系统的发展态势,斯坦福 AI 指数报告 提供了对智能体能力的全面跟踪。

让我们一起共建AI的未来!

开启您的机器学习未来之旅