Computer Use Agents (CUAs)
Descubre cómo los Agentes de Uso de Computadora (CUA) automatizan las interfaces gráficas como lo hacen los humanos. Aprende a crear sistemas de percepción CUA avanzados usando Ultralytics YOLO26.
Los Agentes de uso de computadoras (CUA) representan un gran salto en la forma en que los sistemas de inteligencia artificial interactúan con entornos digitales. A diferencia de los AI Agents tradicionales que dependen exclusivamente de API backend o instrucciones basadas en texto, un CUA está diseñado para interactuar con una interfaz gráfica de usuario (GUI) exactamente igual que lo haría un humano. Al observar la pantalla, mover el cursor, hacer clic en elementos y escribir en un teclado virtual, los CUA cierran la brecha entre las capacidades abstractas de la Generative AI y las operaciones de software prácticas y cotidianas.
Esta evolución a menudo se considera un paso hacia la Artificial General Intelligence (AGI), ya que desafía las limitaciones históricas de la inteligencia artificial, a veces denominadas Paradoja de Moravec, al requerir que la IA perciba y navegue sin problemas por entornos visuales idiosincrásicos.
Link to this sectionEl cambio hacia las interfaces visuales#
Históricamente, la automatización de tareas en diferentes aplicaciones de software requería integraciones directas o un DOM-based parsing rígido. Sin embargo, la última generación de CUA utiliza Vision-Language Models (VLM) avanzados y técnicas sofisticadas de Computer Vision (CV) para interpretar los píxeles en una pantalla.
Avances significativos entre finales de 2024 y principios de 2025 han acelerado la adopción de los CUA. Por ejemplo, Anthropic's Claude Computer Use introdujo una API generalizada para que los modelos observen un escritorio y hagan clic en aplicaciones. Del mismo modo, OpenAI's Operator debutó como una vista previa de investigación capaz de ejecutar tareas de navegación web abiertas. Estos sistemas ahora se evalúan rutinariamente en puntos de referencia rigurosos como WebArena y OSWorld para medir su capacidad de completar flujos de trabajo digitales complejos y de múltiples pasos.
Dado que estos agentes tienen control directo sobre un sistema, se recomienda encarecidamente a los desarrolladores ejecutarlos dentro de Virtual Machines aisladas para mitigar riesgos como acciones no deseadas o Prompt Injection malicioso.
Link to this sectionAplicaciones en el mundo real#
Los CUA están transformando rápidamente las industrias al ejecutar tareas complejas y de varios pasos en ecosistemas de software aislados.
- Garantía de calidad (QA) autónoma: En las GUI automation testing, los CUA pueden navegar visualmente a través de aplicaciones web, hacer clic en los flujos de trabajo del usuario y verificar elementos de diseño sin scripts de prueba frágiles. Si un botón cambia de color o se mueve, el agente se adapta de forma natural.
- Automatización robótica de procesos heredados: Para aplicaciones de escritorio antiguas que carecen de API modernas, los CUA potencian la Robotic Process Automation (RPA). El agente puede abrir un CRM heredado, leer facturas no estructuradas y escribir manualmente los datos extraídos en el sistema, optimizando la entrada de datos empresarial.
Link to this sectionConstruyendo la percepción para los CUA#
Si bien los VLM grandes pueden analizar capturas de pantalla completas, a menudo es más eficiente y preciso combinarlos con modelos de object detection localizados. Estos modelos mapean UI elements como botones, iconos y campos de texto en tiempo real, proporcionando las coordenadas exactas para que el agente haga clic.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA frente a conceptos relacionados#
Comprender cómo encajan los Agentes de uso de computadoras en el ecosistema de IA más amplio es esencial para implementar las estrategias correctas de action chunking:
- vs. Auto-GPT: Mientras que Auto-GPT es un agente autónomo que depende principalmente de la generación de texto y scripts predefinidos para realizar tareas en bucle, un CUA interactúa intrínsecamente con interfaces visuales y sistemas operativos de forma directa.
- vs. Llamada a funciones (uso de herramientas): La Function Calling (Tool Use) permite que una IA ejecute una función de código de backend específica y predefinida (como recuperar una API meteorológica). Por el contrario, los CUA ejecutan acciones de interfaz de usuario de front-end, manipulando el entorno digital exactamente como lo haría un usuario final.






