Computer Use Agents (CUAs)
Descobre como os Agentes de Uso de Computador (CUAs) automatizam interfaces gráficas como os humanos. Aprende a construir sistemas de percepção CUA avançados usando Ultralytics YOLO26.
Os Agentes de Uso de Computador (CUAs) representam um grande salto na forma como os sistemas de inteligência artificial interagem com ambientes digitais. Diferente dos AI Agents tradicionais que dependem exclusivamente de APIs de backend ou prompts baseados em texto, um CUA é projetado para interagir com uma interface gráfica de usuário (GUI) exatamente como um humano faria. Ao observar a tela, mover um cursor, clicar em elementos e digitar em um teclado virtual, os CUAs preenchem a lacuna entre as capacidades abstratas de Generative AI e as operações práticas e cotidianas de software.
Esta evolução é frequentemente vista como um passo em direção à Artificial General Intelligence (AGI), pois desafia as limitações históricas da inteligência de máquina — por vezes referida como Paradoxo de Moravec — ao exigir que a IA perceba e navegue de forma integrada em ambientes visuais idiossincráticos.
Link to this sectionA Mudança para Interfaces Visuais#
Historicamente, automatizar tarefas em diferentes aplicativos de software exigia integrações diretas ou análise baseada em DOM rígida. No entanto, a última geração de CUAs utiliza Vision-Language Models (VLM) avançados e técnicas sofisticadas de Computer Vision (CV) para interpretar pixels em uma tela.
Avanços significativos entre o final de 2024 e o início de 2025 aceleraram a adoção de CUAs. Por exemplo, o Claude Computer Use da Anthropic introduziu uma API generalizada para modelos visualizarem uma área de trabalho e clicarem em aplicativos. Da mesma forma, o Operator da OpenAI estreou como uma prévia de pesquisa capaz de executar tarefas de navegação web de final aberto. Esses sistemas são agora rotineiramente avaliados em benchmarks rigorosos como o WebArena e o OSWorld para medir sua capacidade de concluir fluxos de trabalho digitais complexos e de várias etapas.
Como esses agentes têm controle direto sobre um sistema, os desenvolvedores são fortemente aconselhados a executá-los dentro de Virtual Machines isoladas para mitigar riscos como ações não intencionais ou Prompt Injection malicioso.
Link to this sectionAplicações no Mundo Real#
Os CUAs estão transformando rapidamente as indústrias ao executar tarefas complexas de várias etapas em ecossistemas de software isolados.
- Garantia de Qualidade (QA) Autônoma: Em testes de automação de GUI, os CUAs podem navegar visualmente por aplicativos web, clicar em fluxos de trabalho do usuário e verificar elementos de layout sem scripts de teste frágeis. Se um botão mudar de cor ou se mover, o agente se adapta naturalmente.
- Automação de Processos Robóticos Legados: Para aplicativos de desktop mais antigos que carecem de APIs modernas, os CUAs potencializam a Robotic Process Automation (RPA). O agente pode abrir um CRM legado, ler faturas não estruturadas e digitar manualmente os dados extraídos no sistema, otimizando a entrada de dados corporativos.
Link to this sectionConstruindo a Percepção para CUAs#
Embora grandes VLMs possam analisar capturas de tela inteiras, é frequentemente mais eficiente e preciso combiná-los com modelos de detecção de objetos localizados. Esses modelos mapeiam elementos de UI, como botões, ícones e campos de texto, em tempo real, fornecendo coordenadas exatas para o agente clicar.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUAs vs. Conceitos Relacionados#
Compreender como os Agentes de Uso de Computador se encaixam no ecossistema de IA mais amplo é essencial para implementar as estratégias corretas de action chunking:
- vs. Auto-GPT: Enquanto o Auto-GPT é um agente autônomo que depende principalmente de geração de texto e scripts predefinidos para percorrer tarefas, um CUA interage inerentemente com interfaces visuais e sistemas operacionais diretamente.
- vs. Chamada de Função (Uso de Ferramentas): A Chamada de Função (Uso de Ferramentas) permite que uma IA execute uma função de código de backend específica e predefinida (como recuperar uma API de clima). Em contraste, os CUAs executam ações de interface de usuário de front-end, manipulando o ambiente digital exatamente como um usuário final faria.






