Computer Use Agents (CUAs)
Узнай, как агенты компьютерного использования (CUA) автоматизируют работу с графическими интерфейсами подобно людям. Научись создавать продвинутые системы восприятия CUA с помощью Ultralytics YOLO26.
Агенты компьютерного использования (CUA) представляют собой значительный скачок в том, как системы искусственного интеллекта взаимодействуют с цифровыми средами. В отличие от традиционных AI Agents, которые полагаются исключительно на бэкенд API или текстовые промпты, CUA спроектирован для взаимодействия с графическим пользовательским интерфейсом (GUI) точно так же, как это делал бы человек. Наблюдая за экраном, перемещая курсор, нажимая на элементы и печатая на виртуальной клавиатуре, CUA преодолевают разрыв между абстрактными возможностями Generative AI и практическими повседневными программными операциями.
Эта эволюция часто рассматривается как шаг к Artificial General Intelligence (AGI), поскольку она бросает вызов историческим ограничениям машинного интеллекта — иногда называемым парадоксом Моравека — требуя от ИИ беспрепятственно воспринимать и перемещаться по идиосинкразическим визуальным средам.
Link to this sectionПереход к визуальным интерфейсам#
Исторически автоматизация задач в различных программных приложениях требовала прямых интеграций или жесткого DOM-based parsing. Однако новейшее поколение CUA использует продвинутые Vision-Language Models (VLM) и сложные методы Computer Vision (CV) для интерпретации пикселей на экране.
Значительные прорывы в период с конца 2024 по начало 2025 года ускорили внедрение CUA. Например, Anthropic's Claude Computer Use представил обобщенный API для моделей, позволяющий смотреть на рабочий стол и взаимодействовать с приложениями. Аналогичным образом, OpenAI's Operator дебютировал в качестве исследовательской версии, способной выполнять задачи по просмотру веб-страниц с открытым финалом. Эти системы теперь регулярно оцениваются на строгих бенчмарках, таких как WebArena и OSWorld, чтобы измерить их способность завершать сложные многошаговые цифровые рабочие процессы.
Поскольку эти агенты имеют прямой контроль над системой, разработчикам настоятельно рекомендуется запускать их внутри изолированных Virtual Machines, чтобы минимизировать риски, такие как непреднамеренные действия или вредоносная Prompt Injection.
Link to this sectionПриложения в реальном мире#
CUA быстро трансформируют отрасли, выполняя сложные, многошаговые задачи в изолированных программных экосистемах.
- Автономное обеспечение качества (QA): В GUI automation testing CUA могут визуально перемещаться по веб-приложениям, проходить через рабочие процессы пользователей и проверять элементы макета без хрупких тестовых скриптов. Если кнопка меняет цвет или перемещается, агент адаптируется естественным образом.
- Устаревшая роботизированная автоматизация процессов: Для старых настольных приложений, лишенных современных API, CUA расширяют возможности Robotic Process Automation (RPA). Агент может открыть устаревшую CRM, прочитать неструктурированные счета и вручную ввести извлеченные данные в систему, оптимизируя ввод данных на предприятии.
Link to this sectionСоздание восприятия для CUA#
Хотя крупные VLM могут анализировать целые скриншоты, часто бывает более эффективно и точно сочетать их с локализованными моделями object detection. Эти модели отображают UI elements, такие как кнопки, значки и текстовые поля, в режиме реального времени, предоставляя точные координаты для клика агента.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA против связанных концепций#
Понимание того, как Агенты компьютерного использования вписываются в более широкую экосистему ИИ, необходимо для внедрения правильных стратегий action chunking:
- против Auto-GPT: Хотя Auto-GPT — это автономный агент, который в основном полагается на генерацию текста и предопределенные скрипты для циклического выполнения задач, CUA изначально взаимодействует непосредственно с визуальными интерфейсами и операционными системами.
- против вызова функций (Tool Use): Function Calling (Tool Use) позволяет ИИ выполнять конкретную, предопределенную функцию бэкенд-кода (например, получение данных API о погоде). В отличие от этого, CUA выполняют действия во фронтенд-интерфейсе, управляя цифровой средой точно так же, как это делал бы конечный пользователь.






