Computer Use Agents (CUAs)
Scopri come i Computer Use Agents (CUA) automatizzano le interfacce grafiche come gli esseri umani. Impara a costruire sistemi di percezione CUA avanzati utilizzando Ultralytics YOLO26.
I Computer Use Agents (CUA) rappresentano un importante salto di qualità nel modo in cui i sistemi di intelligenza artificiale interagiscono con gli ambienti digitali. A differenza dei tradizionali AI Agent che si affidano esclusivamente ad API backend o prompt testuali, un CUA è progettato per interagire con un'interfaccia grafica (GUI) esattamente come farebbe un essere umano. Osservando lo schermo, muovendo il cursore, cliccando sugli elementi e digitando su una tastiera virtuale, i CUA colmano il divario tra le capacità astratte della Generative AI e le operazioni software pratiche di tutti i giorni.
Questa evoluzione è spesso considerata un passo verso la Artificial General Intelligence (AGI), poiché sfida i limiti storici dell'intelligenza artificiale — talvolta definiti come Paradosso di Moravec — richiedendo all'AI di percepire e navigare fluidamente in ambienti visivi peculiari.
Link to this sectionIl passaggio alle interfacce visive#
Storicamente, l'automazione delle attività su diverse applicazioni software richiedeva integrazioni dirette o rigidi metodi di DOM-based parsing. Tuttavia, l'ultima generazione di CUA utilizza avanzati Vision-Language Models (VLM) e sofisticate tecniche di Computer Vision (CV) per interpretare i pixel su uno schermo.
Importanti innovazioni tra la fine del 2024 e l'inizio del 2025 hanno accelerato l'adozione dei CUA. Ad esempio, Claude Computer Use di Anthropic ha introdotto un'API generalizzata che permette ai modelli di analizzare un desktop e cliccare sulle applicazioni. Allo stesso modo, Operator di OpenAI ha debuttato come anteprima di ricerca in grado di eseguire attività di navigazione web generiche. Questi sistemi vengono ora regolarmente valutati su rigorosi benchmark come WebArena e OSWorld per misurare la loro capacità di completare flussi di lavoro digitali complessi e a più passaggi.
Poiché questi agenti hanno un controllo diretto sul sistema, si consiglia vivamente agli sviluppatori di eseguirli all'interno di Virtual Machines in modalità sandbox per mitigare rischi come azioni involontarie o pericolosi Prompt Injection.
Link to this sectionApplicazioni nel mondo reale#
I CUA stanno trasformando rapidamente i settori eseguendo attività complesse e a più passaggi attraverso ecosistemi software isolati.
- Quality Assurance (QA) autonoma: Nel GUI automation testing, i CUA possono navigare visivamente all'interno di applicazioni web, eseguire flussi di lavoro utente e verificare elementi di layout senza script di test fragili. Se un pulsante cambia colore o si sposta, l'agente si adatta naturalmente.
- Robotic Process Automation legacy: Per le applicazioni desktop meno recenti prive di moderne API, i CUA potenziano la Robotic Process Automation (RPA). L'agente può aprire un CRM datato, leggere fatture non strutturate e digitare manualmente i dati estratti nel sistema, snellendo l'inserimento dati aziendale.
Link to this sectionCostruire la percezione per i CUA#
Sebbene i VLM di grandi dimensioni possano analizzare interi screenshot, è spesso più efficiente e preciso abbinarli a modelli di object detection localizzata. Questi modelli mappano UI elements come pulsanti, icone e campi di testo in tempo reale, fornendo coordinate esatte su cui l'agente può cliccare.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA vs. concetti correlati#
Capire come i Computer Use Agents si inseriscono nel più ampio ecosistema AI è essenziale per implementare le giuste strategie di action chunking:
- vs. Auto-GPT: Mentre Auto-GPT è un agente autonomo che si basa principalmente sulla generazione di testo e su script predefiniti per eseguire attività cicliche, un CUA interagisce intrinsecamente e direttamente con interfacce visive e sistemi operativi.
- vs. Function Calling (Tool Use): Function Calling (Tool Use) consente a un'AI di eseguire una specifica funzione di codice backend predefinita (come il recupero di un'API meteo). Al contrario, i CUA eseguono azioni sull'interfaccia utente front-end, manipolando l'ambiente digitale esattamente come farebbe un utente finale.






