Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Computer Use Agents (CUAs)

Узнай, как агенты компьютерного использования (CUA) автоматизируют работу с графическими интерфейсами подобно людям. Научись создавать продвинутые системы восприятия CUA с помощью Ultralytics YOLO26.

Агенты компьютерного использования (CUA) представляют собой значительный скачок в том, как системы искусственного интеллекта взаимодействуют с цифровыми средами. В отличие от традиционных AI Agents, которые полагаются исключительно на бэкенд API или текстовые промпты, CUA спроектирован для взаимодействия с графическим пользовательским интерфейсом (GUI) точно так же, как это делал бы человек. Наблюдая за экраном, перемещая курсор, нажимая на элементы и печатая на виртуальной клавиатуре, CUA преодолевают разрыв между абстрактными возможностями Generative AI и практическими повседневными программными операциями.

Эта эволюция часто рассматривается как шаг к Artificial General Intelligence (AGI), поскольку она бросает вызов историческим ограничениям машинного интеллекта — иногда называемым парадоксом Моравека — требуя от ИИ беспрепятственно воспринимать и перемещаться по идиосинкразическим визуальным средам.

Link to this sectionПереход к визуальным интерфейсам#

Исторически автоматизация задач в различных программных приложениях требовала прямых интеграций или жесткого DOM-based parsing. Однако новейшее поколение CUA использует продвинутые Vision-Language Models (VLM) и сложные методы Computer Vision (CV) для интерпретации пикселей на экране.

Значительные прорывы в период с конца 2024 по начало 2025 года ускорили внедрение CUA. Например, Anthropic's Claude Computer Use представил обобщенный API для моделей, позволяющий смотреть на рабочий стол и взаимодействовать с приложениями. Аналогичным образом, OpenAI's Operator дебютировал в качестве исследовательской версии, способной выполнять задачи по просмотру веб-страниц с открытым финалом. Эти системы теперь регулярно оцениваются на строгих бенчмарках, таких как WebArena и OSWorld, чтобы измерить их способность завершать сложные многошаговые цифровые рабочие процессы.

Поскольку эти агенты имеют прямой контроль над системой, разработчикам настоятельно рекомендуется запускать их внутри изолированных Virtual Machines, чтобы минимизировать риски, такие как непреднамеренные действия или вредоносная Prompt Injection.

Link to this sectionПриложения в реальном мире#

CUA быстро трансформируют отрасли, выполняя сложные, многошаговые задачи в изолированных программных экосистемах.

  • Автономное обеспечение качества (QA): В GUI automation testing CUA могут визуально перемещаться по веб-приложениям, проходить через рабочие процессы пользователей и проверять элементы макета без хрупких тестовых скриптов. Если кнопка меняет цвет или перемещается, агент адаптируется естественным образом.
  • Устаревшая роботизированная автоматизация процессов: Для старых настольных приложений, лишенных современных API, CUA расширяют возможности Robotic Process Automation (RPA). Агент может открыть устаревшую CRM, прочитать неструктурированные счета и вручную ввести извлеченные данные в систему, оптимизируя ввод данных на предприятии.

Link to this sectionСоздание восприятия для CUA#

Хотя крупные VLM могут анализировать целые скриншоты, часто бывает более эффективно и точно сочетать их с локализованными моделями object detection. Эти модели отображают UI elements, такие как кнопки, значки и текстовые поля, в режиме реального времени, предоставляя точные координаты для клика агента.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA против связанных концепций#

Понимание того, как Агенты компьютерного использования вписываются в более широкую экосистему ИИ, необходимо для внедрения правильных стратегий action chunking:

  • против Auto-GPT: Хотя Auto-GPT — это автономный агент, который в основном полагается на генерацию текста и предопределенные скрипты для циклического выполнения задач, CUA изначально взаимодействует непосредственно с визуальными интерфейсами и операционными системами.
  • против вызова функций (Tool Use): Function Calling (Tool Use) позволяет ИИ выполнять конкретную, предопределенную функцию бэкенд-кода (например, получение данных API о погоде). В отличие от этого, CUA выполняют действия во фронтенд-интерфейсе, управляя цифровой средой точно так же, как это делал бы конечный пользователь.

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения