遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Computer Use Agents (CUAs)

了解计算机使用智能体 (CUA) 如何像人类一样自动化操作 GUI。学习使用 Ultralytics YOLO26 构建先进的 CUA 感知系统。

计算机使用智能体 (CUA) 代表了人工智能系统与数字环境交互方式的重大飞跃。与仅依赖后端 API 或基于文本提示的传统 AI Agents 不同,CUA 旨在像人类一样与图形用户界面 (GUI) 进行交互。通过观察屏幕、移动光标、点击元素以及在虚拟键盘上打字,CUA 弥合了抽象的 Generative AI 能力与实际的日常软件操作之间的差距。

这一演变通常被视为迈向 Artificial General Intelligence (AGI) 的一步,因为它挑战了机器智能的既有局限性——即所谓的 Moravec's Paradox——要求 AI 能够无缝感知并导航特有的视觉环境。

Link to this section向视觉界面的转变#

从历史上看,跨不同软件应用程序实现任务自动化需要直接集成或僵化的 DOM-based parsing。然而,最新一代的 CUA 利用先进的 Vision-Language Models (VLM) 和复杂的 Computer Vision (CV) 技术来解释屏幕上的像素。

2024 年末至 2025 年初的重大突破加速了 CUA 的采用。例如,Anthropic's Claude Computer Use 引入了一种通用 API,使模型能够查看桌面并在应用程序中进行点击。同样,OpenAI's Operator 作为研究预览版首次亮相,能够执行开放式的网页浏览任务。这些系统现在正定期在 WebArenaOSWorld 等严格的基准测试中进行评估,以衡量其完成复杂、多步骤数字工作流的能力。

由于这些智能体对系统拥有直接控制权,强烈建议开发者在沙盒化的 Virtual Machines 中运行它们,以降低诸如意外操作或恶意 Prompt Injection 等风险。

Link to this section实际应用#

CUA 正在通过在隔离的软件生态系统中执行复杂的、多步骤的任务,迅速改变各个行业。

  • 自动化质量保证 (QA):GUI automation testing 中,CUA 可以直观地浏览 Web 应用程序、点击用户工作流,并在无需脆弱测试脚本的情况下验证布局元素。如果按钮改变颜色或位置,智能体能够自然地进行适应。
  • 传统机器人流程自动化: 对于缺乏现代 API 的旧版桌面应用程序,CUA 可以增强 Robotic Process Automation (RPA)。智能体可以打开旧版 CRM、读取非结构化发票,并将提取的数据手动输入到系统中,从而简化企业的数据录入。

Link to this section构建 CUA 的感知能力#

虽然大型 VLM 可以分析整个屏幕截图,但将它们与本地化的 object detection 模型结合起来往往更高效、更准确。这些模型可以实时规划出按钮、图标和文本框等 UI elements,为智能体点击提供精确的坐标。

开发者可以使用诸如 PyTorch 等框架配合 Ultralytics YOLO26 模型,为 CUA 构建高度响应的感知层。 Ultralytics Platform 可用于针对自定义 GUI 数据集进行 model training。以下 Python 代码片段展示了 CUA 如何使用 ultralytics 包的 predict mode 来查找屏幕上的按钮:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA 与相关概念的对比#

了解计算机使用智能体如何融入更广泛的 AI 生态系统,对于实施正确的 action chunking 策略至关重要:

  • 与 Auto-GPT 对比: 虽然 Auto-GPT 是一种主要依赖文本生成和预定义脚本循环执行任务的自主智能体,但 CUA 本质上是直接与视觉界面和操作系统进行交互的。
  • 与函数调用(工具使用)对比: Function Calling (Tool Use) 允许 AI 执行特定的、预定义的后端代码函数(如获取天气 API)。相比之下,CUA 执行的是前端 UI 操作,像终端用户一样精确地操作数字环境。

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅