Computer Use Agents (CUAs)
了解计算机使用智能体 (CUA) 如何像人类一样自动化操作 GUI。学习使用 Ultralytics YOLO26 构建先进的 CUA 感知系统。
计算机使用智能体 (CUA) 代表了人工智能系统与数字环境交互方式的重大飞跃。与仅依赖后端 API 或基于文本提示的传统 AI Agents 不同,CUA 旨在像人类一样与图形用户界面 (GUI) 进行交互。通过观察屏幕、移动光标、点击元素以及在虚拟键盘上打字,CUA 弥合了抽象的 Generative AI 能力与实际的日常软件操作之间的差距。
这一演变通常被视为迈向 Artificial General Intelligence (AGI) 的一步,因为它挑战了机器智能的既有局限性——即所谓的 Moravec's Paradox——要求 AI 能够无缝感知并导航特有的视觉环境。
Link to this section向视觉界面的转变#
从历史上看,跨不同软件应用程序实现任务自动化需要直接集成或僵化的 DOM-based parsing。然而,最新一代的 CUA 利用先进的 Vision-Language Models (VLM) 和复杂的 Computer Vision (CV) 技术来解释屏幕上的像素。
2024 年末至 2025 年初的重大突破加速了 CUA 的采用。例如,Anthropic's Claude Computer Use 引入了一种通用 API,使模型能够查看桌面并在应用程序中进行点击。同样,OpenAI's Operator 作为研究预览版首次亮相,能够执行开放式的网页浏览任务。这些系统现在正定期在 WebArena 和 OSWorld 等严格的基准测试中进行评估,以衡量其完成复杂、多步骤数字工作流的能力。
由于这些智能体对系统拥有直接控制权,强烈建议开发者在沙盒化的 Virtual Machines 中运行它们,以降低诸如意外操作或恶意 Prompt Injection 等风险。
Link to this section实际应用#
CUA 正在通过在隔离的软件生态系统中执行复杂的、多步骤的任务,迅速改变各个行业。
- 自动化质量保证 (QA): 在 GUI automation testing 中,CUA 可以直观地浏览 Web 应用程序、点击用户工作流,并在无需脆弱测试脚本的情况下验证布局元素。如果按钮改变颜色或位置,智能体能够自然地进行适应。
- 传统机器人流程自动化: 对于缺乏现代 API 的旧版桌面应用程序,CUA 可以增强 Robotic Process Automation (RPA)。智能体可以打开旧版 CRM、读取非结构化发票,并将提取的数据手动输入到系统中,从而简化企业的数据录入。
Link to this section构建 CUA 的感知能力#
虽然大型 VLM 可以分析整个屏幕截图,但将它们与本地化的 object detection 模型结合起来往往更高效、更准确。这些模型可以实时规划出按钮、图标和文本框等 UI elements,为智能体点击提供精确的坐标。
开发者可以使用诸如 PyTorch 等框架配合 Ultralytics YOLO26 模型,为 CUA 构建高度响应的感知层。 Ultralytics Platform 可用于针对自定义 GUI 数据集进行 model training。以下 Python 代码片段展示了 CUA 如何使用 ultralytics 包的 predict mode 来查找屏幕上的按钮:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA 与相关概念的对比#
了解计算机使用智能体如何融入更广泛的 AI 生态系统,对于实施正确的 action chunking 策略至关重要:
- 与 Auto-GPT 对比: 虽然 Auto-GPT 是一种主要依赖文本生成和预定义脚本循环执行任务的自主智能体,但 CUA 本质上是直接与视觉界面和操作系统进行交互的。
- 与函数调用(工具使用)对比: Function Calling (Tool Use) 允许 AI 执行特定的、预定义的后端代码函数(如获取天气 API)。相比之下,CUA 执行的是前端 UI 操作,像终端用户一样精确地操作数字环境。






