探索 Auto-GPT:一种开源 AI,通过自我提示自主实现目标、处理任务并彻底改变问题解决方式。
Auto-GPT 是一个实验性的开源应用程序,它通过让人工智能代理自主运行,展示了人工智能代理的能力。 人工智能代理自主运行的能力。 它由 大型语言模型(LLM)(如 大型语言模型(LLM)(如 OpenAI 的GPT-4)的支持下,Auto-GPT 与标准的 Auto-GPT 与标准聊天机器人的区别在于它能够自我提示。它不需要用户持续输入来引导对话,而是将单一的高层次目标 它不需要用户持续输入来引导对话,而是采用单一的高级目标,并将其分解为一系列子任务。然后,它执行这些任务,点评自己的 迭代,直至目标实现。这一转变代表着 代理人工智能系统 能够以最少的人工干预解决复杂的问题。
Auto-GPT 的核心功能依赖于 "思考"、"推理"、"计划 "和 "行动 "的递归循环。 "计划 "和 "行动"。当指定一个目标时,系统会利用基本的 基础模型来生成逐步计划。 它采用"思维链提示 "来模拟推理,使其能够 模拟推理,使其能够分析环境并确定必要的行动。
为了执行这些计划,Auto-GPT 配备了用于收集信息的互联网接入、用于读写数据的文件管理 读写数据的文件管理功能,以及内存管理工具,通常利用 矢量数据库来保留长期背景信息。这 这克服了 LLM 中标准上下文窗口的局限性 情境窗口的局限性,使代理能够回想之前的步骤并改进其策略。 以前的步骤,并改进其策略。开发人员可以在 源代码,以了解这些组件如何交互。 组件是如何交互的。
Auto-GPT 演示了如何将生成式人工智能 应用于执行可操作的任务,而不仅仅是生成文本。
Auto-GPT 主要处理文本,而现代代理则越来越多地采用多模式,通过计算机视觉(CV)与物理世界交互。 通过计算机视觉(CV)与物理世界交互。代理 可能会在做出决策前使用视觉模型来 "观察 "环境。
下面的示例演示了作为简单代理组件的Python 脚本如何使用 Ultralytics YOLO11来detect 物体,并根据视觉输入 根据视觉输入决定行动。
from ultralytics import YOLO
# Load the YOLO11 model to serve as the agent's "vision"
model = YOLO("yolo11n.pt")
# Run inference on an image to perceive the environment
results = model("office_space.jpg")
# Agent Logic: Check for people to determine if lights should be on
# Class ID 0 typically corresponds to 'person' in COCO datasets
if any(box.cls == 0 for box in results[0].boxes):
print("Agent Decision: Occupants detected. Keeping lights ON.")
else:
print("Agent Decision: Room empty. Switching lights OFF to save energy.")
必须将 Auto-GPT 与人工智能生态系统中的其他术语区分开来:
尽管 Auto-GPT 潜力巨大,但它也面临着一些挑战,例如由于频繁调用 API(如 OpenAI),运营成本较高。 调用API(应用程序接口)给 OpenAI 等提供商造成的高昂运营成本。此外,代理 有时会进入无限循环,或在 LLM 中产生幻觉。 幻觉,在这种情况下,它们会根据错误信息制定不正确的计划。 错误的计划。
未来的迭代旨在整合更强大的 强化学习技术,以提高 决策的准确性。随着这些代理的发展,它们很可能成为 物联网(IoT) 生态系统的核心,自主管理复杂的设备网络和数据流。