Computer Use Agents (CUAs)

Scopri come i Computer Use Agents (CUA) automatizzano le GUI come gli esseri umani. Impara a costruire sistemi di percezione CUA avanzati usando Ultralytics YOLO26.

I Computer Use Agents (CUA) rappresentano un importante salto di qualità nel modo in cui i sistemi di intelligenza artificiale interagiscono con gli ambienti digitali. A differenza dei tradizionali AI Agents che si basano esclusivamente su API di backend o prompt basati su testo, un CUA è progettato per interagire con una interfaccia grafica (GUI) esattamente come farebbe un essere umano. Osservando lo schermo, spostando il cursore, facendo clic sugli elementi e digitando su una tastiera virtuale, i CUA colmano il divario tra le capacità astratte della Generative AI e le operazioni software quotidiane e pratiche.

Questa evoluzione è spesso vista come un passo verso l'Artificial General Intelligence (AGI), poiché sfida i limiti storici dell'intelligenza artificiale — a volte indicata come Paradosso di Moravec — richiedendo all'AI di percepire e navigare senza problemi in ambienti visivi idiosincratici.

Link to this sectionIl passaggio alle interfacce visive#

Storicamente, automatizzare le attività su diverse applicazioni software richiedeva integrazioni dirette o rigidi parsing basati sul DOM. Tuttavia, l'ultima generazione di CUA utilizza avanzati Vision-Language Models (VLM) e sofisticate tecniche di Computer Vision (CV) per interpretare i pixel su uno schermo.

Importanti progressi tra la fine del 2024 e l'inizio del 2025 hanno accelerato l'adozione dei CUA. Ad esempio, Anthropic's Claude Computer Use ha introdotto un'API generalizzata per consentire ai modelli di osservare il desktop e fare clic sulle applicazioni. Allo stesso modo, OpenAI's Operator ha debuttato come anteprima di ricerca in grado di eseguire attività di navigazione web a finale aperto. Questi sistemi vengono ora valutati regolarmente su benchmark rigorosi come WebArena e OSWorld per misurare la loro capacità di completare flussi di lavoro digitali complessi e a più passaggi.

Poiché questi agenti hanno il controllo diretto su un sistema, si consiglia vivamente agli sviluppatori di eseguirli all'interno di Virtual Machines in sandbox per mitigare rischi come azioni non intenzionali o Prompt Injection dannose.

Link to this sectionApplicazioni nel mondo reale#

I CUA stanno trasformando rapidamente i settori eseguendo attività complesse e a più passaggi in ecosistemi software isolati.

Autonomous Quality Assurance (QA): Nel GUI automation testing, i CUA possono navigare visivamente attraverso applicazioni web, cliccare attraverso i flussi di lavoro dell'utente e verificare gli elementi di layout senza fragili script di test. Se un pulsante cambia colore o si sposta, l'agente si adatta naturalmente.
Robotic Process Automation legacy: Per le applicazioni desktop meno recenti che non dispongono di API moderne, i CUA potenziano la Robotic Process Automation (RPA). L'agente può aprire un CRM legacy, leggere fatture non strutturate e digitare manualmente i dati estratti nel sistema, snellendo l'inserimento dei dati aziendali.

Link to this sectionCostruire la percezione per i CUA#

Mentre i grandi VLM possono analizzare interi screenshot, è spesso più efficiente e accurato accoppiarli con modelli localizzati di object detection. Questi modelli mappano gli elementi UI come pulsanti, icone e campi di testo in tempo reale, fornendo coordinate esatte su cui l'agente deve cliccare.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA vs. Concetti correlati#

Capire come i Computer Use Agents si inseriscono nel più ampio ecosistema AI è essenziale per implementare le giuste strategie di action chunking:

vs. Auto-GPT: Mentre Auto-GPT è un agente autonomo che si basa principalmente sulla generazione di testo e su script predefiniti per eseguire cicli di attività, un CUA interagisce intrinsecamente con interfacce visive e sistemi operativi direttamente.
vs. Function Calling (Tool Use): La Function Calling (Tool Use) consente a un'AI di eseguire una specifica funzione di codice backend predefinita (come il recupero di un'API meteo). Al contrario, i CUA eseguono azioni di interfaccia front-end, manipolando l'ambiente digitale esattamente come farebbe un utente finale.

Computer Use Agents (CUAs)

Link to this sectionIl passaggio alle interfacce visive#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionCostruire la percezione per i CUA#

Link to this sectionCUA vs. Concetti correlati#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!