Computer Use Agents (CUAs)

Узнай, как агенты для работы с компьютером (Computer Use Agents, CUA) автоматизируют графические интерфейсы подобно людям. Научись строить продвинутые системы восприятия CUA, используя Ultralytics YOLO26.

Агенты компьютерного использования (CUA) представляют собой значительный скачок в том, как системы искусственного интеллекта взаимодействуют с цифровой средой. В отличие от традиционных AI Agents, которые полагаются исключительно на бэкенд-API или текстовые подсказки, CUA спроектирован для взаимодействия с графическим интерфейсом пользователя (GUI) точно так же, как это делал бы человек. Наблюдая за экраном, перемещая курсор, нажимая на элементы и печатая на виртуальной клавиатуре, CUA преодолевают разрыв между абстрактными возможностями Generative AI и практическими повседневными операциями в программном обеспечении.

Эта эволюция часто рассматривается как шаг к Artificial General Intelligence (AGI), поскольку она бросает вызов историческим ограничениям машинного интеллекта — иногда называемым парадоксом Моравека — требуя от ИИ беспрепятственного восприятия и навигации в идиосинкразических визуальных средах.

Link to this sectionПереход к визуальным интерфейсам#

Исторически автоматизация задач в различных программных приложениях требовала прямой интеграции или жесткого DOM-based parsing. Однако последнее поколение CUA использует продвинутые Vision-Language Models (VLM) и сложные методы Computer Vision (CV) для интерпретации пикселей на экране.

Значительные прорывы, произошедшие в период с конца 2024 по начало 2025 года, ускорили внедрение CUA. Например, Anthropic's Claude Computer Use представил обобщенный API, позволяющий моделям просматривать рабочий стол и взаимодействовать с приложениями. Аналогичным образом, OpenAI's Operator дебютировал в виде исследовательского превью, способного выполнять задачи по свободному просмотру веб-страниц. Эти системы сейчас регулярно оцениваются на строгих бенчмарках, таких как WebArena и OSWorld, для измерения их способности выполнять сложные, многошаговые цифровые рабочие процессы.

Поскольку эти агенты имеют прямой контроль над системой, разработчикам настоятельно рекомендуется запускать их внутри изолированных Virtual Machines для снижения рисков, таких как непреднамеренные действия или вредоносная Prompt Injection.

Link to this sectionРеальные приложения#

CUA быстро трансформируют индустрии, выполняя сложные, многошаговые задачи в изолированных программных экосистемах.

Автономное обеспечение качества (QA): В GUI automation testing CUA могут визуально перемещаться по веб-приложениям, кликать по пользовательским рабочим процессам и проверять элементы макета без хрупких тестовых скриптов. Если кнопка меняет цвет или перемещается, агент адаптируется естественным образом.
Устаревшая роботизированная автоматизация процессов: Для старых настольных приложений, лишенных современных API, CUA значительно усиливают Robotic Process Automation (RPA). Агент может открыть устаревшую CRM, прочитать неструктурированные счета и вручную ввести извлеченные данные в систему, оптимизируя ввод данных на предприятии.

Link to this sectionПостроение восприятия для CUA#

Хотя крупные VLM могут анализировать целые скриншоты, часто эффективнее и точнее сочетать их с локализованными моделями object detection. Эти модели отображают UI elements, такие как кнопки, иконки и текстовые поля, в режиме реального времени, предоставляя точные координаты для клика агента.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA против связанных концепций#

Понимание того, как агенты компьютерного использования вписываются в более широкую экосистему ИИ, необходимо для реализации правильных стратегий action chunking:

против Auto-GPT: Хотя Auto-GPT — это автономный агент, который в основном полагается на генерацию текста и предопределенные скрипты для циклического выполнения задач, CUA по своей сути взаимодействует с визуальными интерфейсами и операционными системами напрямую.
против вызова функций (Tool Use): Function Calling (Tool Use) позволяет ИИ выполнять конкретную, предопределенную бэкенд-функцию кода (например, получение данных API погоды). Напротив, CUA выполняют действия в интерфейсе фронтенда, манипулируя цифровой средой точно так же, как это делал бы конечный пользователь.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Computer Use Agents (CUAs)

Link to this sectionПереход к визуальным интерфейсам#

Link to this sectionРеальные приложения#

Link to this sectionПостроение восприятия для CUA#

Link to this sectionCUA против связанных концепций#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!