Computer Use Agents (CUAs)
Découvre comment les Computer Use Agents (CUA) automatisent les interfaces graphiques comme le feraient des humains. Apprends à créer des systèmes de perception CUA avancés en utilisant Ultralytics YOLO26.
Les Agents d'utilisation d'ordinateur (CUA) représentent un bond en avant majeur dans la manière dont les systèmes d'intelligence artificielle interagissent avec les environnements numériques. Contrairement aux AI Agents traditionnels qui reposent exclusivement sur des API backend ou des invites textuelles, un CUA est conçu pour interagir avec une interface utilisateur graphique (GUI) exactement comme le ferait un humain. En observant l'écran, en déplaçant un curseur, en cliquant sur des éléments et en tapant sur un clavier virtuel, les CUA comblent le fossé entre les capacités abstraites de l'IA générative et les opérations logicielles pratiques du quotidien.
Cette évolution est souvent perçue comme un pas vers l'Intelligence Artificielle Générale (AGI), car elle remet en question les limites historiques de l'intelligence artificielle — parfois appelée paradoxe de Moravec — en exigeant de l'IA qu'elle perçoive et navigue de manière fluide dans des environnements visuels idiosyncrasiques.
Link to this sectionLe passage aux interfaces visuelles#
Historiquement, l'automatisation des tâches dans différentes applications logicielles nécessitait des intégrations directes ou une analyse basée sur le DOM rigide. Cependant, la dernière génération de CUA utilise des Vision-Language Models (VLM) avancés et des techniques sophistiquées de Computer Vision (CV) pour interpréter les pixels à l'écran.
Des avancées significatives entre fin 2024 et début 2025 ont accéléré l'adoption des CUA. Par exemple, Anthropic's Claude Computer Use a introduit une API généralisée permettant aux modèles d'observer un bureau et de cliquer dans les applications. De même, OpenAI's Operator a fait ses débuts en tant qu'aperçu de recherche capable d'exécuter des tâches de navigation Web ouvertes. Ces systèmes sont désormais régulièrement évalués sur des benchmarks rigoureux comme WebArena et OSWorld afin de mesurer leur capacité à accomplir des flux de travail numériques complexes en plusieurs étapes.
Étant donné que ces agents ont un contrôle direct sur un système, il est fortement conseillé aux développeurs de les exécuter dans des Virtual Machines en bac à sable pour atténuer les risques tels que les actions involontaires ou les Prompt Injection malveillantes.
Link to this sectionApplications concrètes#
Les CUA transforment rapidement les industries en exécutant des tâches complexes en plusieurs étapes à travers des écosystèmes logiciels isolés.
- Assurance Qualité (QA) autonome : Dans les tests d'automatisation d'interface graphique, les CUA peuvent naviguer visuellement dans les applications Web, cliquer sur les flux de travail des utilisateurs et vérifier les éléments de mise en page sans scripts de test fragiles. Si un bouton change de couleur ou se déplace, l'agent s'adapte naturellement.
- Automatisation robotique des processus (RPA) hérités : Pour les applications de bureau plus anciennes dépourvues d'API modernes, les CUA boostent la Robotic Process Automation (RPA). L'agent peut ouvrir un CRM ancien, lire des factures non structurées et saisir manuellement les données extraites dans le système, rationalisant ainsi la saisie de données en entreprise.
Link to this sectionConstruire la perception pour les CUA#
Bien que les grands VLM puissent analyser des captures d'écran entières, il est souvent plus efficace et précis de les associer à des modèles de détection d'objets localisés. Ces modèles cartographient en temps réel les éléments d'interface utilisateur tels que les boutons, les icônes et les champs de texte, fournissant des coordonnées exactes sur lesquelles l'agent peut cliquer.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA vs concepts connexes#
Comprendre comment les Agents d'utilisation d'ordinateur s'intègrent dans l'écosystème global de l'IA est essentiel pour mettre en œuvre les bonnes stratégies d'action chunking :
- vs Auto-GPT : Alors qu'Auto-GPT est un agent autonome qui repose principalement sur la génération de texte et des scripts prédéfinis pour boucler les tâches, un CUA interagit intrinsèquement et directement avec les interfaces visuelles et les systèmes d'exploitation.
- vs Appel de fonction (utilisation d'outils) : L'Appel de fonction (utilisation d'outils) permet à une IA d'exécuter une fonction de code backend spécifique et prédéfinie (comme la récupération d'une API météo). En revanche, les CUA exécutent des actions d'interface utilisateur frontend, manipulant l'environnement numérique exactement comme le ferait un utilisateur final.






