深圳Yolo 视觉
深圳
立即加入
词汇表

AI 代理

了解什么是 AI 代理,以及这些自主系统如何驱动现代自动化。探索它们的感知-思考-行动循环以及在计算机视觉和机器人技术中的作用。

人工智能代理是一种自主系统,能够感知环境,通过复杂逻辑推理做出决策,并采取具体行动以实现预定目标。 与被动处理输入产出结果的静态机器学习模型不同,智能体能在持续工作流中动态运作。这类系统构成了人工智能的"主动"层级,弥合了数字预测与现实执行之间的鸿沟。通过运用记忆与自适应学习能力,智能体无需持续人工干预即可处理从软件自动化到物理导航的各类任务。

感知-推理-行动循环

人工智能代理的功能依赖于一个循环过程,通常被称为感知-行动循环。这种架构使代理能够与环境进行有意义的交互。

  1. 感知(感知):智能体从外界收集信息。在计算机视觉应用中,智能体将摄像头作为"眼睛",运用YOLO26等高速模型执行目标检测或分割任务,将原始像素数据转化为结构化信息。
  2. 推理(思考):智能体根据其目标处理感知到的数据。该阶段常整合大型语言模型(LLMs)以实现语义理解,或采用强化学习算法优化决策策略。高级智能体能像棋手预判未来走法般进行多步规划。
  3. 动作(执行):基于其推理结果,智能体执行一项任务。这可能是数字化操作,例如查询数据库或发送警报;也可能是机器人领域的物理操作,例如机械臂从传送带上拾取特定物品。

AI代理与AI模型

区分代理和模型至关重要,因为它们在技术栈中承担着不同的角色。

  • AI模型:模型是一种数学引擎,例如经过训练可识别模式的神经网络。它是一种提供预测(例如"这是辆汽车")的工具,但本身不会对预测结果采取行动。
  • AI 智能体:智能体是运用模型作为工具的整体系统。它具备能动性——即主动引发改变的能力。例如,当模型识别出红灯时,智能体会决定采取制动措施。

实际应用

人工智能代理正通过自动化需要认知灵活性的工作流程,推动各行业转型。

构建简单的视觉代理

开发者可通过将感知模型与条件逻辑相结合来构建基础智能体。以下Python 展示了使用 ultralytics 该代理检测到人员后,会根据模型的置信度决定是否触发警报。

from ultralytics import YOLO

# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")

# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")

# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
    # Check if a 'person' (class 0) is detected with high confidence
    if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
        print("ACTION: Person detected! Initiating security protocol.")
    else:
        print("ACTION: Area clear. Continuing surveillance.")

相关概念

  • 边缘AI为实现实时响应,智能体 通常NVIDIA 等硬件设备上本地运行, 通过在数据源头而非云端进行处理, 最大限度降低延迟。
  • 通用人工智能(AGI) 当前智能体虽具有专业化特性(窄人工智能),但AGI指的是能够执行人类所能完成的任何 智力任务的假想智能体。
  • 生成式人工智能现代智能体常利用生成式人工智能生成动态响应或代码,作为工作流程中可生成内容的助手。

对于希望为智能体训练基础模型的用户,Ultralytics 提供了一个高效的环境,用于数据集标注和训练任务管理。有关智能体架构的进一步阅读资料,可参考斯坦福大学人工智能研究所(Stanford HAI和DeepMind等机构的研究成果。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入