Computer Use Agents (CUAs)
Computer Use Agents (CUA) がどのように人間のようにGUIを自動化するかを解説します。Ultralytics YOLO26を使用して高度なCUA知覚システムを構築する方法を学びましょう。
Computer Use Agents (CUA) は、人工知能システムがデジタル環境と対話する方法における大きな飛躍を象徴するものです。バックエンドのAPIやテキストベースのプロンプトのみに依存する従来の AI Agents とは異なり、CUAは人間と全く同様にグラフィカルユーザーインターフェース (GUI) と対話するように設計されています。画面を観察し、カーソルを動かし、要素をクリックし、仮想キーボードで入力を行うことで、CUAは抽象的な Generative AI の能力と、日常的で実践的なソフトウェア操作との間のギャップを埋めます。
この進化は、Artificial General Intelligence (AGI) への一歩と見なされることがよくあります。これは、AIが独自の視覚環境をシームレスに認識しナビゲートすることを要求することで、機械知能の歴史的な限界(Moravec's Paradox と呼ばれることもあります)に挑戦するからです。
Link to this section視覚インターフェースへの移行#
歴史的に、異なるソフトウェアアプリケーション間でタスクを自動化するには、直接的な統合や厳格な DOM-based parsing が必要でした。しかし、最新世代のCUAは、高度な Vision-Language Models (VLM) と洗練された Computer Vision (CV) 技術を活用して、画面上のピクセルを解釈します。
2024年後半から2025年初頭にかけての大きなブレイクスルーが、CUAの採用を加速させました。例えば、Anthropic's Claude Computer Use は、モデルがデスクトップを見てアプリケーションを操作するために汎用的なAPIを導入しました。同様に、OpenAI's Operator は、オープンエンドなWebブラウジングタスクを実行可能なリサーチプレビューとして登場しました。これらのシステムは現在、複雑なマルチステップのデジタルワークフローを完了する能力を測定するために、WebArena や OSWorld といった厳格なベンチマークで日常的に評価されています。
Because these agents have direct control over a system, developers are strongly advised to run them inside sandboxed Virtual Machines to mitigate risks such as unintended actions or malicious Prompt Injection.
Link to this section現実世界での応用#
CUAは、分離されたソフトウェアエコシステム全体で複雑なマルチステップタスクを実行することにより、産業を急速に変革しています。
- 自律型品質保証 (QA): GUI automation testing において、CUAはWebアプリケーション内を視覚的に移動し、ユーザーワークフローをクリック操作し、壊れやすいテストスクリプトなしでレイアウト要素を検証できます。ボタンの色が変わったり位置が動いたりしても、エージェントは自然に適応します。
- レガシーロボティックプロセスオートメーション: 最新のAPIを持たない古いデスクトップアプリケーションに対して、CUAは Robotic Process Automation (RPA) を強力にサポートします。エージェントはレガシーCRMを開き、非構造化請求書を読み取り、抽出されたデータを手動でシステムに入力することで、エンタープライズのデータ入力を効率化します。
Link to this sectionCUAのための認識機能の構築#
大規模なVLMはスクリーンショット全体を分析できますが、ローカライズされた object detection モデルと組み合わせる方が、効率的かつ正確である場合が多いです。これらのモデルは、ボタン、アイコン、テキストフィールドなどの UI elements をリアルタイムでマッピングし、エージェントがクリックするための正確な座標を提供します。
開発者は、PyTorch と Ultralytics YOLO26 モデルを使用して、CUA向けの高応答な認識レイヤーを構築できます。Ultralytics Platform は、カスタムGUIデータセットでの model training に活用できます。以下のPythonスニペットは、CUAが ultralytics パッケージの predict mode を使用して画面上のボタンを見つける方法を示しています。
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUAと関連概念の比較#
適切な action chunking 戦略を実装するためには、Computer Use Agentsがより広いAIエコシステムの中でどのように位置付けられるかを理解することが不可欠です。
- vs. Auto-GPT: Auto-GPT は主にテキスト生成と定義済みのスクリプトに依存してタスクをループさせる自律型エージェントですが、CUAは本質的に視覚インターフェースやオペレーティングシステムと直接対話します。
- vs. 関数呼び出し (ツール使用): Function Calling (Tool Use) を使用すると、AIは特定の定義済みバックエンドコード関数(天気APIの取得など)を実行できます。対照的に、CUAはフロントエンドのUIアクションを実行し、エンドユーザーと全く同様にデジタル環境を操作します。






