Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Computer Use Agents (CUAs)

Scopri come i Computer Use Agents (CUA) automatizzano le interfacce grafiche come gli esseri umani. Impara a costruire sistemi di percezione CUA avanzati utilizzando Ultralytics YOLO26.

I Computer Use Agents (CUA) rappresentano un importante salto di qualità nel modo in cui i sistemi di intelligenza artificiale interagiscono con gli ambienti digitali. A differenza dei tradizionali AI Agent che si affidano esclusivamente ad API backend o prompt testuali, un CUA è progettato per interagire con un'interfaccia grafica (GUI) esattamente come farebbe un essere umano. Osservando lo schermo, muovendo il cursore, cliccando sugli elementi e digitando su una tastiera virtuale, i CUA colmano il divario tra le capacità astratte della Generative AI e le operazioni software pratiche di tutti i giorni.

Questa evoluzione è spesso considerata un passo verso la Artificial General Intelligence (AGI), poiché sfida i limiti storici dell'intelligenza artificiale — talvolta definiti come Paradosso di Moravec — richiedendo all'AI di percepire e navigare fluidamente in ambienti visivi peculiari.

Link to this sectionIl passaggio alle interfacce visive#

Storicamente, l'automazione delle attività su diverse applicazioni software richiedeva integrazioni dirette o rigidi metodi di DOM-based parsing. Tuttavia, l'ultima generazione di CUA utilizza avanzati Vision-Language Models (VLM) e sofisticate tecniche di Computer Vision (CV) per interpretare i pixel su uno schermo.

Importanti innovazioni tra la fine del 2024 e l'inizio del 2025 hanno accelerato l'adozione dei CUA. Ad esempio, Claude Computer Use di Anthropic ha introdotto un'API generalizzata che permette ai modelli di analizzare un desktop e cliccare sulle applicazioni. Allo stesso modo, Operator di OpenAI ha debuttato come anteprima di ricerca in grado di eseguire attività di navigazione web generiche. Questi sistemi vengono ora regolarmente valutati su rigorosi benchmark come WebArena e OSWorld per misurare la loro capacità di completare flussi di lavoro digitali complessi e a più passaggi.

Poiché questi agenti hanno un controllo diretto sul sistema, si consiglia vivamente agli sviluppatori di eseguirli all'interno di Virtual Machines in modalità sandbox per mitigare rischi come azioni involontarie o pericolosi Prompt Injection.

Link to this sectionApplicazioni nel mondo reale#

I CUA stanno trasformando rapidamente i settori eseguendo attività complesse e a più passaggi attraverso ecosistemi software isolati.

  • Quality Assurance (QA) autonoma: Nel GUI automation testing, i CUA possono navigare visivamente all'interno di applicazioni web, eseguire flussi di lavoro utente e verificare elementi di layout senza script di test fragili. Se un pulsante cambia colore o si sposta, l'agente si adatta naturalmente.
  • Robotic Process Automation legacy: Per le applicazioni desktop meno recenti prive di moderne API, i CUA potenziano la Robotic Process Automation (RPA). L'agente può aprire un CRM datato, leggere fatture non strutturate e digitare manualmente i dati estratti nel sistema, snellendo l'inserimento dati aziendale.

Link to this sectionCostruire la percezione per i CUA#

Sebbene i VLM di grandi dimensioni possano analizzare interi screenshot, è spesso più efficiente e preciso abbinarli a modelli di object detection localizzata. Questi modelli mappano UI elements come pulsanti, icone e campi di testo in tempo reale, fornendo coordinate esatte su cui l'agente può cliccare.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA vs. concetti correlati#

Capire come i Computer Use Agents si inseriscono nel più ampio ecosistema AI è essenziale per implementare le giuste strategie di action chunking:

  • vs. Auto-GPT: Mentre Auto-GPT è un agente autonomo che si basa principalmente sulla generazione di testo e su script predefiniti per eseguire attività cicliche, un CUA interagisce intrinsecamente e direttamente con interfacce visive e sistemi operativi.
  • vs. Function Calling (Tool Use): Function Calling (Tool Use) consente a un'AI di eseguire una specifica funzione di codice backend predefinita (come il recupero di un'API meteo). Al contrario, i CUA eseguono azioni sull'interfaccia utente front-end, manipolando l'ambiente digitale esattamente come farebbe un utente finale.

Explore solutions

Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning