人工智能代理
了解什么是人工智能代理,以及这些自主系统如何为现代自动化提供动力。了解它们的 "感知-思考-行动 "循环以及在计算机视觉和机器人学中的作用。
人工智能代理是一种自主实体,它通过传感器感知环境,处理信息以做出智能决策,并使用执行器对环境采取行动以实现特定目标。与遵循预定义指令集的简单程序不同,人工智能代理可以从经验中学习,适应不断变化的条件,并在没有人类直接干预的情况下独立运行。这种感知、思考和行动的能力使代理成为现代人工智能(AI)的基石,推动着复杂自动化系统的发展。我们的目标是创建能够处理复杂、动态任务的系统,从城市街道导航到工业流程管理。
人工智能代理如何工作
人工智能代理的运行最好被理解为一个连续的循环,其中涉及三个基本组成部分:
- 感知(传感):代理使用传感器收集有关其当前状态和周围环境的信息。在计算机视觉(CV)中,这些传感器通常是捕捉视觉数据的摄像头。这些原始数据是代理用来了解其环境的输入。
- 决策(处理):人工智能代理的核心是它的 "大脑",负责处理感知数据以做出决策。这部分通常是一个复杂的机器学习(ML)模型,如神经网络。对于复杂的行为,代理可能会采用强化学习等技术,即通过试错学习最佳行动,以获得最大回报。代理会评估各种可能性,并选择最有可能实现目标的行动。
- 行动(执行):一旦做出决定,代理就会通过执行器来执行。执行器是一种影响环境的机制。对于物理机器人来说,这可能是移动机械臂或转向车辆。对于数字代理来说,这可能是在股票市场上执行交易或过滤电子邮件。
这种 "感知-思考-行动 "的循环被称为代理架构,它允许代理自主运行并对实时事件做出反应。构建代理的框架正变得越来越普遍,LangChain和AutoGPT等项目在开发 LLM 驱动的代理方面越来越受欢迎。
计算机视觉中的人工智能代理
对于在物理世界中运行的人工智能代理来说,计算机视觉是一项至关重要的使能技术。Ultralytics YOLO11等视觉模型作为感知基础,为代理提供了 "看到 "和解释周围环境的能力。当集成到代理系统中时,CV 模型可将原始视觉数据转化为结构化信息,例如识别和定位物体(物体检测)、跟踪物体运动(物体跟踪)或理解人类姿势(姿势估计)。
代理人工智能与计算机视觉的结合对未来的自动化至关重要。代理不仅能检测物体,还能将检测结果作为决策的触发因素。例如,在 YOLO 模型检测到生产线上的缺陷后,代理会决定启动机械臂移除该物品。这就超越了简单的检测,创建了一个完全自动化的工作流程。
真实世界的应用与实例
人工智能代理的威力在实际应用中体现得淋漓尽致,它们将感知和决策转化为实际行动。
- 自动驾驶汽车: 自动驾驶汽车是复杂人工智能代理的典型代表。它们使用一整套传感器(包括摄像头和激光雷达)来构建 360 度的环境视图。CV 模型执行实时推理,检测行人、其他车辆和交通标志。然后,代理的决策引擎会处理这些信息,以控制转向、加速和制动,从而在复杂的城市环境中安全导航。Waymo等公司是部署此类先进代理系统的先驱。
- 智能制造:在人工智能驱动的制造业中,人工智能代理可自动进行质量控制。一个与运行YOLO11等模型的摄像头相连的代理可以监控传送带。它使用实例分割来识别每个产品,检查缺陷,如果检测到缺陷,就会向机械臂(执行器)发出信号,以移除有缺陷的物品。这就创建了一个高效、自主、持续运行的质量保证系统,这是工业 4.0 的关键组成部分。
人工智能代理与相关概念的区别
将人工智能代理与人工智能领域的其他相关术语区分开来很有帮助。
- 人工智能代理与人工智能模型: 人工智能模型是代理的一个组成部分,而不是代理本身。一个模型,如YOLO 物体探测器,是一个执行特定任务(如在图像中寻找物体)的工具。人工智能代理是一个总体系统,它利用模型的输出做出决定,然后采取行动。模型提供 "是什么",而代理则决定 "怎么做"。
- 人工智能代理与聊天机器人/ 大语言模型(LLM) :虽然聊天机器人或大语言模型(LLM)可以表现出智能行为,但它们通常仅限于基于文本的数字环境。人工智能代理是一个更广泛的概念,可以通过传感器和执行器与物理世界进行交互。不过,大语言模型可以作为代理内部强大的决策引擎,"拥抱脸庞"等平台就探索了这一概念。
- 人工智能代理与机器人技术: 机器人技术指的是实体机器人--身体的设计和制造。人工智能代理是控制机器人身体的智能--头脑。工业机械臂只是硬件;当人工智能系统使其能够感知环境并自主决策时,它就成为了智能代理。