Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Computer Use Agents (CUAs)

Entdecke, wie Computer Use Agents (CUAs) GUIs wie Menschen automatisieren. Lerne, mit Ultralytics YOLO26 moderne CUA-Wahrnehmungssysteme zu entwickeln.

Computer Use Agents (CUAs) stellen einen großen Sprung in der Art und Weise dar, wie künstliche Intelligenz-Systeme mit digitalen Umgebungen interagieren. Im Gegensatz zu herkömmlichen AI Agents, die sich ausschließlich auf Backend-APIs oder textbasierte Prompts verlassen, ist ein CUA darauf ausgelegt, mit einer grafischen Benutzeroberfläche (GUI) genau so zu interagieren, wie ein Mensch es tun würde. Indem sie den Bildschirm beobachten, einen Cursor bewegen, auf Elemente klicken und auf einer virtuellen Tastatur tippen, schlagen CUAs die Brücke zwischen abstrakten Generative AI-Fähigkeiten und praktischen, alltäglichen Software-Vorgängen.

Diese Entwicklung wird oft als ein Schritt in Richtung Artificial General Intelligence (AGI) angesehen, da sie die historischen Grenzen der maschinellen Intelligenz herausfordert – oft als Moravec's Paradox bezeichnet –, indem sie von der KI verlangt, idiosynkratische visuelle Umgebungen nahtlos wahrzunehmen und zu navigieren.

Link to this sectionDer Wandel zu visuellen Schnittstellen#

Historisch gesehen erforderte die Automatisierung von Aufgaben über verschiedene Softwareanwendungen hinweg direkte Integrationen oder starres DOM-based parsing. Die neueste Generation von CUAs nutzt jedoch fortschrittliche Vision-Language Models (VLM) und hochentwickelte Computer Vision (CV)-Techniken, um Pixel auf einem Bildschirm zu interpretieren.

Signifikante Durchbrüche zwischen Ende 2024 und Anfang 2025 haben die Einführung von CUAs beschleunigt. Zum Beispiel hat Anthropic's Claude Computer Use eine allgemeine API eingeführt, die es Modellen ermöglicht, einen Desktop zu betrachten und in Anwendungen zu klicken. Ebenso debütierte OpenAI's Operator als Forschungsvorschau, die in der Lage ist, offene Web-Browsing-Aufgaben auszuführen. Diese Systeme werden nun routinemäßig an strengen Benchmarks wie WebArena und OSWorld evaluiert, um ihre Fähigkeit zu messen, komplexe, mehrstufige digitale Workflows abzuschließen.

Da diese Agenten direkte Kontrolle über ein System haben, wird Entwicklern dringend empfohlen, sie in isolierten Virtual Machines auszuführen, um Risiken wie unbeabsichtigte Aktionen oder bösartiges Prompt Injection zu minimieren.

Link to this sectionAnwendungen in der Praxis#

CUAs verändern Branchen rasant, indem sie komplexe, mehrstufige Aufgaben über isolierte Software-Ökosysteme hinweg ausführen.

  • Autonome Qualitätssicherung (QA): Beim GUI automation testing können CUAs visuell durch Webanwendungen navigieren, Benutzer-Workflows durchklicken und Layout-Elemente ohne fehleranfällige Testskripte überprüfen. Wenn eine Schaltfläche die Farbe ändert oder sich bewegt, passt sich der Agent natürlich an.
  • Legacy Robotic Process Automation: Für ältere Desktop-Anwendungen, denen moderne APIs fehlen, bieten CUAs einen enormen Schub für Robotic Process Automation (RPA). Der Agent kann ein Legacy-CRM öffnen, unstrukturierte Rechnungen lesen und die extrahierten Daten manuell in das System eingeben, was die Dateneingabe in Unternehmen rationalisiert.

Link to this sectionWahrnehmung für CUAs aufbauen#

Während große VLMs ganze Screenshots analysieren können, ist es oft effizienter und präziser, sie mit lokalisierten object detection-Modellen zu kombinieren. Diese Modelle kartieren UI elements wie Schaltflächen, Symbole und Textfelder in Echtzeit und liefern exakte Koordinaten, auf die der Agent klicken kann.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUAs im Vergleich zu verwandten Konzepten#

Zu verstehen, wie Computer Use Agents in das breitere KI-Ökosystem passen, ist entscheidend für die Implementierung der richtigen action chunking-Strategien:

  • vs. Auto-GPT: Während Auto-GPT ein autonomer Agent ist, der sich hauptsächlich auf Textgenerierung und vordefinierte Skripte verlässt, um Aufgaben in Schleifen auszuführen, interagiert ein CUA inhärent direkt mit visuellen Schnittstellen und Betriebssystemen.
  • vs. Function Calling (Tool Use): Function Calling (Tool Use) ermöglicht es einer KI, eine spezifische, vordefinierte Backend-Code-Funktion auszuführen (wie das Abrufen einer Wetter-API). Im Gegensatz dazu führen CUAs UI-Aktionen im Frontend aus und manipulieren die digitale Umgebung genau so, wie ein Endbenutzer es tun würde.

Explore solutions

Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Nutze Vision-KI für die smarte Landwirtschaft mit Ultralytics YOLO-Modellen. Unterstütze Ernteüberwachung, Viehbestandverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI in der Automobilindustrie

Nutze Computer Vision in der Automobilbranche mit Ultralytics YOLO Modellen. Vision AI verbessert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision-KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Mache Maschinen intelligenter mit Ultralytics YOLO Modellen. Vision KI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision KI ermöglicht Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere deine Logistik mit Ultralytics YOLO Modellen. Vision KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Sicherheitsüberwachung in Echtzeit im Lager.

Mehr erfahren

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens