Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Computer Use Agents (CUAs)

Descubre cómo los Agentes de Uso de Computadora (CUA) automatizan las interfaces gráficas como lo hacen los humanos. Aprende a crear sistemas de percepción CUA avanzados usando Ultralytics YOLO26.

Los Agentes de uso de computadoras (CUA) representan un gran salto en la forma en que los sistemas de inteligencia artificial interactúan con entornos digitales. A diferencia de los AI Agents tradicionales que dependen exclusivamente de API backend o instrucciones basadas en texto, un CUA está diseñado para interactuar con una interfaz gráfica de usuario (GUI) exactamente igual que lo haría un humano. Al observar la pantalla, mover el cursor, hacer clic en elementos y escribir en un teclado virtual, los CUA cierran la brecha entre las capacidades abstractas de la Generative AI y las operaciones de software prácticas y cotidianas.

Esta evolución a menudo se considera un paso hacia la Artificial General Intelligence (AGI), ya que desafía las limitaciones históricas de la inteligencia artificial, a veces denominadas Paradoja de Moravec, al requerir que la IA perciba y navegue sin problemas por entornos visuales idiosincrásicos.

Link to this sectionEl cambio hacia las interfaces visuales#

Históricamente, la automatización de tareas en diferentes aplicaciones de software requería integraciones directas o un DOM-based parsing rígido. Sin embargo, la última generación de CUA utiliza Vision-Language Models (VLM) avanzados y técnicas sofisticadas de Computer Vision (CV) para interpretar los píxeles en una pantalla.

Avances significativos entre finales de 2024 y principios de 2025 han acelerado la adopción de los CUA. Por ejemplo, Anthropic's Claude Computer Use introdujo una API generalizada para que los modelos observen un escritorio y hagan clic en aplicaciones. Del mismo modo, OpenAI's Operator debutó como una vista previa de investigación capaz de ejecutar tareas de navegación web abiertas. Estos sistemas ahora se evalúan rutinariamente en puntos de referencia rigurosos como WebArena y OSWorld para medir su capacidad de completar flujos de trabajo digitales complejos y de múltiples pasos.

Dado que estos agentes tienen control directo sobre un sistema, se recomienda encarecidamente a los desarrolladores ejecutarlos dentro de Virtual Machines aisladas para mitigar riesgos como acciones no deseadas o Prompt Injection malicioso.

Link to this sectionAplicaciones en el mundo real#

Los CUA están transformando rápidamente las industrias al ejecutar tareas complejas y de varios pasos en ecosistemas de software aislados.

  • Garantía de calidad (QA) autónoma: En las GUI automation testing, los CUA pueden navegar visualmente a través de aplicaciones web, hacer clic en los flujos de trabajo del usuario y verificar elementos de diseño sin scripts de prueba frágiles. Si un botón cambia de color o se mueve, el agente se adapta de forma natural.
  • Automatización robótica de procesos heredados: Para aplicaciones de escritorio antiguas que carecen de API modernas, los CUA potencian la Robotic Process Automation (RPA). El agente puede abrir un CRM heredado, leer facturas no estructuradas y escribir manualmente los datos extraídos en el sistema, optimizando la entrada de datos empresarial.

Link to this sectionConstruyendo la percepción para los CUA#

Si bien los VLM grandes pueden analizar capturas de pantalla completas, a menudo es más eficiente y preciso combinarlos con modelos de object detection localizados. Estos modelos mapean UI elements como botones, iconos y campos de texto en tiempo real, proporcionando las coordenadas exactas para que el agente haga clic.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA frente a conceptos relacionados#

Comprender cómo encajan los Agentes de uso de computadoras en el ecosistema de IA más amplio es esencial para implementar las estrategias correctas de action chunking:

  • vs. Auto-GPT: Mientras que Auto-GPT es un agente autónomo que depende principalmente de la generación de texto y scripts predefinidos para realizar tareas en bucle, un CUA interactúa intrínsecamente con interfaces visuales y sistemas operativos de forma directa.
  • vs. Llamada a funciones (uso de herramientas): La Function Calling (Tool Use) permite que una IA ejecute una función de código de backend específica y predefinida (como recuperar una API meteorológica). Por el contrario, los CUA ejecutan acciones de interfaz de usuario de front-end, manipulando el entorno digital exactamente como lo haría un usuario final.

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático