Agentic Workflows

了解代理式工作流如何使自主 AI 代理能够解决复杂任务。学习如何集成 Ultralytics YOLO26 等先进的视觉工具。

Agentic workflows 代表了人工智能 (AI) 的一种变革性方法，在这种方法中，多个自主实体进行交互、做出决策并以最少的人为干预执行多步骤任务。与遵循严格线性执行路径的传统机器学习流水线不同，agentic workflow 具有高度的动态性。它允许智能体 (intelligent agent) 或协调的智能体网络感知其环境、推理复杂问题并利用外部工具来实现预定义的各种目标。随着企业规模化 AI 计划的推进，企业级 agentic workflows 正在取代孤立的脚本，从而在各行各业实现强大且可扩展的自动化。

Link to this section理解 Agentic Workflows#

从本质上讲，agentic workflow 将 AI 从被动生成转变为主动问题解决。这需要从单次提示交互过渡到规划、执行和观察的迭代循环。通过编排这些循环，开发人员可以构建出能够处理意外边缘情况并自我纠错的系统。

为了清晰区分密切相关的概念：AI agent 是进行推理和行动的个体自主实体（通常由大语言模型 (LLM) 驱动）。相反，agentic workflow 是一种统筹性的架构流程，它管理这些智能体如何协作、共享记忆并对动作进行排序。此外，虽然生成式 AI 主要基于用户提示进行单次线性过程的创作，但 agentic 系统利用诸如自我反思、规划和多智能体辩论等 agentic 设计模式来持续优化输出，直至完全达成目标。

Link to this section核心组件#

几个基础要素推动了这些工作流的成功：

LLM 主干：工作流的核心推理引擎。框架负责编排像 OpenAI 的 GPT-4o 这样最先进的模型，以解读用户意图并动态生成执行计划。
函数调用与工具使用：智能体配备了与外部世界交互的特定工具。这包括查询数据库、执行代码或调用计算机视觉模型来分析视觉数据。来自诸如 OpenAI 关于函数调用等提供商的文档概述了模型如何格式化输出以可靠地触发外部 API。
编排框架：诸如 LangGraph, CrewAI 以及 Microsoft AutoGen 等库提供了关键基础设施，用于连接智能体、管理对话状态并智能地路由任务。
记忆与上下文管理：为了防止幻觉并保持多步骤过程中的一致性，工作流保留短期记忆（当前的对话上下文窗口）和长期记忆（持久化数据库）以从过往交互中学习。

Link to this section实际应用#

Agentic workflows 正在现实世界中积极解决复杂的开放式任务：

自主视觉检测： 在制造业中，agentic 系统可以自动化缺陷检测。编排智能体会触发相机工具来捕获图像，使用目标检测 (object detection) 模型进行处理，并分析输出结果。如果发现缺陷，智能体会自主记录维护工单并将产品路由至人工审核，从而管理整个工厂的响应流程。
智能文档解析： 在金融和法律领域，工作流旨在从非结构化 PDF 中提取结构化数据。智能体通过迭代应用版面分析，利用针对性的提示工程 (prompt engineering) 来自我纠错并对照预期的财务方案核实提取出的表格。
动态营销运营： 具有前瞻性的营销团队正在通过部署智能体来重塑营销工作流，这些智能体会自主分析当前趋势、生成活动资产、测试广告文案变体，并根据实时性能指标调整预算策略。

Link to this section示例：构建视觉智能体工作流#

使用 Ultralytics Platform 和 ultralytics Python 包可以轻松地将视觉智能集成到 agentic workflow 中。在这个概念示例中，一个 agentic 系统使用 YOLO26 作为感知工具来检查工厂流水线，允许工作流的底层逻辑根据 predict mode 的结果自主决定下一步行动。

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Agentic workflow step 1: Vision tool gathers environmental data
results = model.predict("factory_line.jpg")


# Agentic workflow step 2: Agent logic evaluates the visual detections
def decision_agent(detections):
    for obj in detections:
        # Check if the model detected a specific class, e.g., 'defect'
        if obj.names[int(obj.cls)] == "defect":
            return "Action: Trigger immediate maintenance alert."
    return "Action: Continue production line smoothly."


# Execute the agent's decision logic based on bounding box data
action = decision_agent(results[0].boxes)
print(action)

通过在底层利用诸如 PyTorch 等框架，这些视觉工具将高精度的空间感知能力输入到更广泛的 AI 逻辑中。随着 agentic 组织持续成熟，先进推理模型与实时视觉能力的结合将推动下一代智能、可自我纠错的自动化。通过主动学习实现持续改进和复杂的编排，agentic workflows 确保了 AI 系统能够端到端地可靠执行复杂策略。