Computer Use Agents (CUAs)

发现计算机使用代理 (CUA) 如何像人类一样自动化 GUI 操作。学习使用 Ultralytics YOLO26 构建先进的 CUA 感知系统。

计算机使用智能体 (CUAs) 代表了人工智能系统与数字环境交互方式的重大飞跃。与仅依赖后端 API 或基于文本提示的传统 AI 智能体不同，CUA 的设计旨在像人类一样与图形用户界面 (GUI) 进行交互。通过观察屏幕、移动光标、点击元素以及在虚拟键盘上打字，CUAs 在抽象的生成式 AI 能力与实际的日常软件操作之间架起了一座桥梁。

这种演变通常被视为迈向通用人工智能 (AGI) 的一步，因为它挑战了机器智能的历史局限性——有时被称为莫拉维克悖论 (Moravec's Paradox)——要求人工智能无缝感知并导航各种特有的视觉环境。

Link to this section向视觉界面的转变#

从历史上看，跨不同软件应用程序自动化执行任务需要直接集成或死板的基于 DOM 的解析。然而，最新一代的 CUAs 利用先进的视觉语言模型 (VLM) 和复杂的计算机视觉 (CV) 技术来解释屏幕上的像素。

2024 年末至 2025 年初的重大突破加速了 CUAs 的采用。例如，Anthropic 的 Claude Computer Use 引入了一个通用 API，允许模型观察桌面并点击应用程序。同样，OpenAI 的 Operator 作为研究预览版首次亮相，具备执行开放式网页浏览任务的能力。这些系统现在定期在 WebArena 和 OSWorld 等严格的基准测试中进行评估，以衡量其完成复杂的多步数字工作流的能力。

由于这些智能体对系统拥有直接控制权，强烈建议开发者在沙盒化虚拟机中运行它们，以减轻意外操作或恶意提示词注入 (Prompt Injection) 等风险。

Link to this section实际应用#

CUAs 正通过在孤立的软件生态系统中执行复杂的多步任务，迅速改变各个行业。

自主质量保证 (QA)： 在 GUI 自动化测试中，CUAs 可以视觉化地浏览 Web 应用程序，点击用户工作流，并验证布局元素，而无需依赖脆弱的测试脚本。如果按钮改变颜色或移动，智能体可以自然地进行适应。
传统机器人流程自动化： 对于缺乏现代 API 的旧版桌面应用程序，CUAs 可以增强机器人流程自动化 (RPA)。智能体可以打开传统的 CRM，读取非结构化发票，并手动将提取的数据输入系统，从而简化企业数据录入工作。

Link to this section为 CUAs 构建感知能力#

虽然大型 VLM 可以分析整个屏幕截图，但将它们与本地化的目标检测模型配对通常更高效、更准确。这些模型可以实时映射按钮、图标和文本字段等 UI 元素，为智能体提供点击的精确坐标。

开发者可以使用 PyTorch 框架结合 Ultralytics YOLO26 模型，为 CUA 构建响应迅速的感知层。Ultralytics 平台可用于在自定义 GUI 数据集上进行模型训练。以下 Python 代码片段演示了 CUA 如何使用 ultralytics 包的预测模式 (predict mode) 在屏幕上查找按钮：

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUAs 与相关概念的对比#

了解计算机使用智能体如何融入更广泛的 AI 生态系统，对于实施正确的动作分块 (action chunking) 策略至关重要：

与 Auto-GPT 的对比： 虽然 Auto-GPT 是一种主要依赖文本生成和预定义脚本循环执行任务的自主智能体，但 CUA 本质上是直接与视觉界面和操作系统进行交互的。
与函数调用 (工具使用) 的对比： 函数调用 (工具使用) 允许 AI 执行特定的、预定义的后端代码函数（例如检索天气 API）。相比之下，CUAs 执行前端 UI 操作，像最终用户一样精确地操纵数字环境。