Computer Use Agents (CUAs)

Descobre como os Computer Use Agents (CUAs) automatizam GUIs como humanos. Aprende a construir sistemas de perceção CUA avançados usando o Ultralytics YOLO26.

Computer Use Agents (CUAs) representam um grande salto na forma como os sistemas de inteligência artificial interagem com ambientes digitais. Ao contrário dos AI Agents tradicionais que dependem exclusivamente de APIs de backend ou prompts baseados em texto, um CUA é projetado para interagir com uma interface gráfica de usuário (GUI) exatamente como um humano faria. Ao observar a tela, mover um cursor, clicar em elementos e digitar em um teclado virtual, os CUAs preenchem a lacuna entre as capacidades abstratas de Generative AI e as operações de software práticas e cotidianas.

Essa evolução é frequentemente vista como um passo em direção à Artificial General Intelligence (AGI), pois desafia as limitações históricas da inteligência de máquina — por vezes referida como o Paradoxo de Moravec — ao exigir que a IA perceba e navegue perfeitamente por ambientes visuais idiossincráticos.

Link to this sectionA transição para interfaces visuais#

Historicamente, automatizar tarefas em diferentes aplicativos de software exigia integrações diretas ou análise baseada em DOM rígida. No entanto, a última geração de CUAs utiliza Vision-Language Models (VLM) avançados e técnicas sofisticadas de Computer Vision (CV) para interpretar pixels em uma tela.

Significant breakthroughs between late 2024 and early 2025 have accelerated CUA adoption. For instance, Anthropic's Claude Computer Use introduced a generalized API for models to look at a desktop and click around applications. Similarly, OpenAI's Operator debuted as a research preview capable of executing open-ended web browsing tasks. These systems are now routinely evaluated on rigorous benchmarks like WebArena and OSWorld to measure their ability to complete complex, multi-step digital workflows.

Como esses agentes têm controle direto sobre um sistema, recomenda-se fortemente que os desenvolvedores os executem dentro de Virtual Machines isoladas para mitigar riscos como ações não intencionais ou Prompt Injection maliciosa.

Link to this sectionAplicações no Mundo Real#

Os CUAs estão transformando rapidamente os setores ao executar tarefas complexas de várias etapas em ecossistemas de software isolados.

Garantia de Qualidade (QA) autônoma: Em testes de automação de GUI, os CUAs podem navegar visualmente por aplicativos web, percorrer fluxos de trabalho do usuário e verificar elementos de layout sem scripts de teste frágeis. Se um botão mudar de cor ou se mover, o agente se adapta naturalmente.
Automação de Processos Robóticos legada: Para aplicativos de desktop mais antigos que carecem de APIs modernas, os CUAs potencializam a Robotic Process Automation (RPA). O agente pode abrir um CRM legado, ler faturas não estruturadas e digitar manualmente os dados extraídos no sistema, simplificando a entrada de dados corporativos.

Link to this sectionConstruindo a percepção para CUAs#

Embora grandes VLMs possam analisar capturas de tela inteiras, geralmente é mais eficiente e preciso combiná-los com modelos localizados de object detection. Esses modelos mapeiam UI elements, como botões, ícones e campos de texto, em tempo real, fornecendo coordenadas exatas para o agente clicar.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUAs vs. conceitos relacionados#

Compreender como os Computer Use Agents se encaixam no ecossistema de IA mais amplo é essencial para implementar as estratégias corretas de action chunking:

vs. Auto-GPT: Embora o Auto-GPT seja um agente autônomo que depende principalmente da geração de texto e scripts predefinidos para realizar loops de tarefas, um CUA interage inerentemente com interfaces visuais e sistemas operacionais diretamente.
vs. Function Calling (Tool Use): Function Calling (Tool Use) permite que uma IA execute uma função de código de backend específica e predefinida (como recuperar uma API de clima). Em contraste, os CUAs executam ações de UI de front-end, manipulando o ambiente digital exatamente como um usuário final faria.

Computer Use Agents (CUAs)

Link to this sectionA transição para interfaces visuais#

Link to this sectionAplicações no Mundo Real#

Link to this sectionConstruindo a percepção para CUAs#

Link to this sectionCUAs vs. conceitos relacionados#

Explore solutions

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

IA em robótica

IA na Logística

IA no varejo

IA na Saúde

IA na Fabricação

IA no Setor Automóvel

IA na Agricultura

Vamos construir o futuro da IA juntos!