Computer Use Agents (CUAs)

Computer Use Agents (CUA) がどのように人間のようにGUIを自動化するかを解説します。Ultralytics YOLO26を使用して高度なCUA知覚システムを構築する方法を学びましょう。

Computer Use Agents (CUAs) は、人工知能システムがデジタル環境と対話する方法における大きな飛躍を象徴しています。バックエンドの API やテキストベースのプロンプトのみに依存する従来の AI Agents とは異なり、CUA は人間が行うのと全く同じようにグラフィカルユーザーインターフェース (GUI) と対話するように設計されています。画面を観察し、カーソルを動かし、要素をクリックし、仮想キーボードでタイピングを行うことで、CUA は抽象的な Generative AI の能力と、日常的で実用的なソフトウェア操作との間のギャップを埋めます。

この進化は、Artificial General Intelligence (AGI) への一歩と見なされることがよくあります。これは、AI が独自の視覚環境をシームレスに認識しナビゲートすることを要求することで、機械知能の歴史的な限界（Moravec's Paradox と呼ばれることもあります）に挑戦しているためです。

Link to this section視覚的インターフェースへのシフト#

歴史的に、さまざまなソフトウェアアプリケーション間でタスクを自動化するには、直接的な統合や厳格な DOM-based parsing が必要でした。しかし、最新世代の CUA は、高度な Vision-Language Models (VLM) と洗練された Computer Vision (CV) 手法を活用して、画面上のピクセルを解釈します。

2024 年後半から 2025 年初頭にかけての重要なブレークスルーが、CUA の採用を加速させました。例えば、Anthropic's Claude Computer Use は、モデルがデスクトップを見てアプリケーション周辺をクリックできるようにする汎用的な API を導入しました。同様に、OpenAI's Operator も、自由形式の Web ブラウジングタスクを実行できるリサーチプレビューとして登場しました。これらのシステムは現在、複雑なマルチステップのデジタルワークフローを完了する能力を測定するために、WebArena や OSWorld のような厳格なベンチマークで日常的に評価されています。

Because these agents have direct control over a system, developers are strongly advised to run them inside sandboxed Virtual Machines to mitigate risks such as unintended actions or malicious Prompt Injection.

Link to this section実社会での応用#

CUA は、分離されたソフトウェアエコシステム全体で複雑なマルチステップタスクを実行することで、産業を急速に変革しています。

自律的な品質保証 (QA): GUI automation testing において、CUA は Web アプリケーションを視覚的にナビゲートし、ユーザーワークフローをクリックし、壊れやすいテストスクリプトを使用せずにレイアウト要素を検証できます。ボタンの色が変わったり移動したりしても、エージェントは自然に適応します。
レガシーなロボティックプロセスオートメーション: 最新の API を持たない古いデスクトップアプリケーションに対して、CUA は Robotic Process Automation (RPA) を強化します。エージェントはレガシーな CRM を開き、構造化されていない請求書を読み取り、抽出されたデータを手動でシステムに入力することで、企業のデータ入力を合理化できます。

Link to this sectionCUA のための認識機能の構築#

大規模な VLM はスクリーンショット全体を分析できますが、ローカライズされた object detection モデルと組み合わせる方が効率的で正確な場合が多いです。これらのモデルは、ボタン、アイコン、テキストフィールドなどの UI elements をリアルタイムでマッピングし、エージェントがクリックするための正確な座標を提供します。

開発者は PyTorch と Ultralytics YOLO26 モデルを使用して、CUA 用の非常に応答性の高い認識レイヤーを構築できます。Ultralytics Platform は、カスタム GUI データセットでの model training に活用できます。以下の Python スニペットは、CUA が ultralytics パッケージの predict mode を使用して画面上のボタンを見つける方法を示しています。

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA と関連コンセプトの比較#

Computer Use Agents がより広範な AI エコシステムにどのように適合するかを理解することは、適切な action chunking 戦略を実装するために不可欠です。

vs. Auto-GPT: Auto-GPT は、主にテキスト生成と事前定義されたスクリプトに依存してタスクを繰り返す自律型エージェントですが、CUA は本質的に視覚インターフェースやオペレーティングシステムと直接対話します。
vs. 関数呼び出し (ツール使用): Function Calling (Tool Use) を使用すると、AI は特定の事前定義されたバックエンドコード関数（天気 API の取得など）を実行できます。対照的に、CUA はフロントエンドの UI アクションを実行し、エンドユーザーが行うのと同じようにデジタル環境を操作します。

Computer Use Agents (CUAs)

Link to this section視覚的インターフェースへのシフト#

Link to this section実社会での応用#

Link to this sectionCUA のための認識機能の構築#

Link to this sectionCUA と関連コンセプトの比較#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！