Computer Use Agents (CUAs)

Découvre comment les agents d'utilisation informatique (CUA) automatisent les interfaces graphiques comme les humains. Apprends à construire des systèmes de perception CUA avancés en utilisant Ultralytics YOLO26.

Les Agents d'utilisation informatique (CUA) représentent un bond en avant majeur dans la manière dont les systèmes d'intelligence artificielle interagissent avec les environnements numériques. Contrairement aux AI Agents traditionnels qui reposent exclusivement sur des API backend ou des prompts textuels, un CUA est conçu pour interagir avec une interface utilisateur graphique (GUI) exactement comme le ferait un humain. En observant l'écran, en déplaçant un curseur, en cliquant sur des éléments et en tapant sur un clavier virtuel, les CUA comblent le fossé entre les capacités abstraites de l'Generative AI et les opérations logicielles pratiques et quotidiennes.

Cette évolution est souvent perçue comme une étape vers l'Artificial General Intelligence (AGI), car elle remet en question les limites historiques de l'intelligence artificielle — parfois désignées sous le nom de Moravec's Paradox — en exigeant de l'IA qu'elle perçoive et navigue de manière transparente dans des environnements visuels idiosyncrasiques.

Link to this sectionLe passage aux interfaces visuelles#

Historiquement, l'automatisation des tâches dans différentes applications logicielles nécessitait des intégrations directes ou une DOM-based parsing rigide. Cependant, la dernière génération de CUA utilise des Vision-Language Models (VLM) avancés et des techniques sophistiquées de Computer Vision (CV) pour interpréter les pixels à l'écran.

Des avancées significatives entre fin 2024 et début 2025 ont accéléré l'adoption des CUA. Par exemple, le Anthropic's Claude Computer Use a introduit une API généralisée permettant aux modèles de regarder un bureau et de cliquer sur des applications. De même, OpenAI's Operator a fait ses débuts en tant qu'aperçu de recherche capable d'exécuter des tâches de navigation web à champ ouvert. Ces systèmes sont désormais régulièrement évalués sur des benchmarks rigoureux comme WebArena et OSWorld afin de mesurer leur capacité à accomplir des flux de travail numériques complexes et multi-étapes.

Parce que ces agents ont un contrôle direct sur un système, il est fortement conseillé aux développeurs de les exécuter à l'intérieur de Virtual Machines isolées afin d'atténuer les risques tels que les actions involontaires ou les Prompt Injection malveillantes.

Link to this sectionApplications concrètes#

Les CUA transforment rapidement les industries en exécutant des tâches complexes en plusieurs étapes au sein d'écosystèmes logiciels isolés.

Assurance qualité (QA) autonome : Dans les GUI automation testing, les CUA peuvent naviguer visuellement dans les applications web, cliquer sur les flux de travail des utilisateurs et vérifier les éléments de mise en page sans scripts de test fragiles. Si un bouton change de couleur ou se déplace, l'agent s'adapte naturellement.
Automatisation des processus robotisés (RPA) hérités : Pour les anciennes applications de bureau dépourvues d'API modernes, les CUA boostent le Robotic Process Automation (RPA). L'agent peut ouvrir un CRM hérité, lire des factures non structurées et saisir manuellement les données extraites dans le système, simplifiant ainsi la saisie de données en entreprise.

Link to this sectionConstruire la perception pour les CUA#

Bien que les grands VLM puissent analyser des captures d'écran entières, il est souvent plus efficace et précis de les coupler avec des modèles de object detection localisés. Ces modèles cartographient en temps réel les UI elements tels que les boutons, les icônes et les champs de texte, fournissant les coordonnées exactes sur lesquelles l'agent doit cliquer.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA vs. concepts associés#

Comprendre comment les CUA s'intègrent dans l'écosystème plus large de l'IA est essentiel pour mettre en œuvre les bonnes stratégies d'action chunking :

vs. Auto-GPT : Alors que Auto-GPT est un agent autonome qui repose principalement sur la génération de texte et des scripts prédéfinis pour boucler les tâches, un CUA interagit intrinsèquement et directement avec les interfaces visuelles et les systèmes d'exploitation.
vs. Appel de fonction (Utilisation d'outils) : Le Function Calling (Tool Use) permet à une IA d'exécuter une fonction de code backend spécifique et prédéfinie (comme la récupération d'une API météo). En revanche, les CUA exécutent des actions d'interface utilisateur front-end, manipulant l'environnement numérique exactement comme le ferait un utilisateur final.

Computer Use Agents (CUAs)

Link to this sectionLe passage aux interfaces visuelles#

Link to this sectionApplications concrètes#

Link to this sectionConstruire la perception pour les CUA#

Link to this sectionCUA vs. concepts associés#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !