AI Agent
探索 AI 代理的世界。了解这些自主系统如何使用 Ultralytics YOLO26 进行感知、推理并实时行动以解决复杂任务。
AI Agent 是一种自主系统,能够感知环境、通过复杂逻辑进行推理以做出决策,并采取特定行动来实现既定目标。与被动处理输入以产生输出的静态 machine learning 模型不同,代理在持续的工作流中动态运行。这些系统构成了 artificial intelligence 的“主动”层,弥合了数字预测与现实世界执行之间的鸿沟。通过利用记忆和自适应学习,代理无需人工持续干预即可处理从软件自动化到物理导航的各类任务。
Link to this section感知-推理-行动循环#
AI 代理的功能依赖于一个循环过程,通常被称为感知-行动循环。这种架构允许代理与其周围环境进行有意义的交互。
-
感知(Sensing): 代理从世界中收集信息。在 computer vision 应用中,代理将摄像头用作“眼睛”。它使用像 YOLO26 这样的高速模型来执行 object detection 或分割,将原始像素转换为结构化数据。
-
推理(Thinking): 代理根据其目标处理感知到的数据。这一阶段通常结合 Large Language Models (LLMs) 进行语义理解,或使用 reinforcement learning 算法来优化决策策略。高级代理可以像预测未来走法的国际象棋棋手一样,提前规划多个步骤。
-
行动(Executing): 基于推理,代理执行任务。这可以是数字操作,例如查询数据库或发送警报,也可以是 robotics 中的物理操作,例如机械臂从传送带上抓取特定物品。
Link to this sectionAI 代理与 AI 模型#
区分代理和模型非常重要,因为它们在技术栈中扮演着不同的角色。
- AI 模型: 模型是一种数学引擎,例如经过训练用于识别模式的 neural network。它是一个提供预测(例如“这是一辆车”)但不会根据预测采取行动的工具。
- AI 代理: 代理是一个将模型作为工具使用的综合系统。它具备代理能力——即启动变化的能力。例如,当模型识别出红灯时,代理会决定踩下刹车。
Link to this section实际应用#
AI 代理正在通过自动化需要认知灵活性的工作流来改变各行各业。
- 智能制造: 在 industrial automation 中,视觉代理监控生产线。如果 quality control system 识别出缺陷,代理可以自动停止机器并记录事件,从而防止浪费。
- 自主物流: 仓库利用代理机器人进行库存管理。这些代理使用 SLAM (Simultaneous Localization and Mapping) 和视觉模型在动态环境中导航,以高效定位、抓取和运输包裹。
Link to this section构建简单的视觉代理#
开发者可以通过将感知模型与条件逻辑相结合来构建基础代理。以下 Python 示例展示了使用 ultralytics 包的简单“安全代理”。该代理检测到人员并根据模型的置信度决定是否触发警报。
from ultralytics import YOLO
# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")
# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")
# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
# Check if a 'person' (class 0) is detected with high confidence
if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
print("ACTION: Person detected! Initiating security protocol.")
else:
print("ACTION: Area clear. Continuing surveillance.")Link to this section相关概念#
- Edge AI: 为了实时做出反应,代理通常在像 NVIDIA Jetson 这样的硬件上本地运行,通过在源头而非云端处理数据来最小化延迟。
- Artificial General Intelligence (AGI): 虽然目前的代理是专门化的(弱人工智能),但 AGI 指的是能够执行人类所能完成的任何智力任务的假设性代理。
- Generative AI: 现代代理经常使用 GenAI 来创建动态响应或代码,作为工作流的一部分充当生成内容的助手。
对于那些希望为代理训练基础模型的人,Ultralytics Platform 提供了一个简化的环境,用于标注数据集和管理训练运行。关于代理架构的进一步阅读,可以在 Stanford HAI 和 DeepMind 等组织的研究中找到。






