Computer Use Agents (CUAs)

Descubre cómo los Agentes de Uso de Computadora (CUA) automatizan GUIs como los humanos. Aprende a construir sistemas de percepción CUA avanzados usando Ultralytics YOLO26.

Los Agentes de uso informático (CUA) representan un gran salto en la forma en que los sistemas de inteligencia artificial interactúan con los entornos digitales. A diferencia de los AI Agents tradicionales que dependen exclusivamente de API backend o de instrucciones basadas en texto, un CUA está diseñado para interactuar con una interfaz gráfica de usuario (GUI) exactamente como lo haría un humano. Al observar la pantalla, mover el cursor, hacer clic en elementos y escribir en un teclado virtual, los CUA cierran la brecha entre las capacidades abstractas de la Generative AI y las operaciones de software prácticas y cotidianas.

Esta evolución se considera a menudo un paso hacia la Artificial General Intelligence (AGI), ya que desafía las limitaciones históricas de la inteligencia artificial (a veces denominada Moravec's Paradox) al exigir que la IA perciba y navegue sin problemas por entornos visuales idiosincrásicos.

Link to this sectionEl cambio hacia las interfaces visuales#

Históricamente, automatizar tareas en diferentes aplicaciones de software requería integraciones directas o un rígido DOM-based parsing. Sin embargo, la última generación de CUA utiliza Vision-Language Models (VLM) avanzados y técnicas sofisticadas de Computer Vision (CV) para interpretar los píxeles en una pantalla.

Los avances significativos ocurridos entre finales de 2024 y principios de 2025 han acelerado la adopción de los CUA. Por ejemplo, Anthropic's Claude Computer Use introdujo una API generalizada para que los modelos observen un escritorio y hagan clic en las aplicaciones. De forma similar, OpenAI's Operator debutó como una vista previa de investigación capaz de ejecutar tareas de navegación web abiertas. Estos sistemas se evalúan ahora de forma rutinaria mediante pruebas rigurosas como WebArena y OSWorld para medir su capacidad de completar flujos de trabajo digitales complejos y de varios pasos.

Debido a que estos agentes tienen control directo sobre un sistema, se recomienda encarecidamente a los desarrolladores ejecutarlos dentro de Virtual Machines aisladas para mitigar riesgos como acciones no deseadas o Prompt Injection malintencionada.

Link to this sectionAplicaciones en el mundo real#

Los CUA están transformando rápidamente los sectores al ejecutar tareas complejas de varios pasos a través de ecosistemas de software aislados.

Aseguramiento de calidad (QA) autónomo: En las GUI automation testing, los CUA pueden navegar visualmente por aplicaciones web, hacer clic a través de flujos de trabajo de usuario y verificar elementos de diseño sin scripts de prueba frágiles. Si un botón cambia de color o se mueve, el agente se adapta de forma natural.
Automatización robótica de procesos heredados: Para aplicaciones de escritorio antiguas que carecen de API modernas, los CUA potencian la Robotic Process Automation (RPA). El agente puede abrir un CRM heredado, leer facturas no estructuradas y escribir manualmente los datos extraídos en el sistema, agilizando la entrada de datos en la empresa.

Link to this sectionDesarrollar la percepción para los CUA#

Aunque los VLM de gran tamaño pueden analizar capturas de pantalla completas, suele ser más eficiente y preciso combinarlos con modelos localizados de object detection. Estos modelos trazan UI elements como botones, iconos y campos de texto en tiempo real, proporcionando las coordenadas exactas para que el agente haga clic.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA frente a conceptos relacionados#

Entender cómo encajan los Agentes de uso informático en el ecosistema de IA más amplio es esencial para implementar las estrategias de action chunking adecuadas:

Frente a Auto-GPT: Mientras que Auto-GPT es un agente autónomo que depende principalmente de la generación de texto y scripts predefinidos para realizar tareas en bucle, un CUA interactúa inherentemente con interfaces visuales y sistemas operativos directamente.
Frente a la llamada de funciones (uso de herramientas): Function Calling (Tool Use) permite que una IA ejecute una función de código backend específica y predefinida (como recuperar una API meteorológica). Por el contrario, los CUA ejecutan acciones de UI front-end, manipulando el entorno digital exactamente como lo haría un usuario final.

Computer Use Agents (CUAs)

Link to this sectionEl cambio hacia las interfaces visuales#

Link to this sectionAplicaciones en el mundo real#

Link to this sectionDesarrollar la percepción para los CUA#

Link to this sectionCUA frente a conceptos relacionados#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!