Computer Use Agents (CUAs)

Khám phá cách các Computer Use Agents (CUA) tự động hóa GUI như con người. Tìm hiểu cách xây dựng các hệ thống nhận thức CUA tiên tiến bằng Ultralytics YOLO26.

Computer Use Agents (CUA) đại diện cho một bước tiến lớn trong cách các hệ thống trí tuệ nhân tạo tương tác với môi trường kỹ thuật số. Không giống như các AI Agent truyền thống vốn chỉ dựa hoàn toàn vào các backend API hoặc câu lệnh văn bản, một CUA được thiết kế để tương tác với giao diện người dùng đồ họa (GUI) theo cách chính xác như con người. Bằng cách quan sát màn hình, di chuyển con trỏ, nhấp vào các phần tử và nhập liệu trên bàn phím ảo, CUA thu hẹp khoảng cách giữa các khả năng Generative AI trừu tượng và các thao tác phần mềm thực tế hàng ngày.

Sự phát triển này thường được xem là một bước tiến tới Artificial General Intelligence (AGI), vì nó thách thức những hạn chế lịch sử của trí tuệ máy móc—đôi khi được gọi là Nghịch lý Moravec—bằng cách yêu cầu AI nhận thức và điều hướng các môi trường trực quan đặc thù một cách liền mạch.

Link to this sectionSự chuyển dịch sang giao diện trực quan#

Trong lịch sử, việc tự động hóa các tác vụ trên các ứng dụng phần mềm khác nhau đòi hỏi các tích hợp trực tiếp hoặc phân tích cú pháp dựa trên DOM cứng nhắc. Tuy nhiên, thế hệ CUA mới nhất sử dụng các Vision-Language Models (VLM) tiên tiến và các kỹ thuật Computer Vision (CV) phức tạp để diễn giải các pixel trên màn hình.

Những đột phá đáng kể giữa cuối năm 2024 và đầu năm 2025 đã thúc đẩy việc áp dụng CUA. Ví dụ, Anthropic's Claude Computer Use đã giới thiệu một API tổng quát cho các mô hình để quan sát máy tính để bàn và thao tác nhấp chuột trên các ứng dụng. Tương tự, OpenAI's Operator ra mắt như một bản xem trước nghiên cứu có khả năng thực hiện các tác vụ duyệt web mở. Các hệ thống này hiện thường xuyên được đánh giá trên các benchmark nghiêm ngặt như WebArena và OSWorld để đo lường khả năng hoàn thành các quy trình làm việc kỹ thuật số phức tạp, đa bước.

Vì các agent này có quyền kiểm soát trực tiếp đối với một hệ thống, các nhà phát triển được khuyến nghị mạnh mẽ nên chạy chúng bên trong các Virtual Machines được cô lập để giảm thiểu rủi ro như các hành động ngoài ý muốn hoặc Prompt Injection độc hại.

Link to this sectionCác ứng dụng trong thực tế#

CUA đang nhanh chóng thay đổi các ngành công nghiệp bằng cách thực hiện các tác vụ phức tạp, đa bước trên các hệ sinh thái phần mềm biệt lập.

Autonomous Quality Assurance (QA): Trong kiểm thử tự động hóa GUI, CUA có thể điều hướng trực quan qua các ứng dụng web, nhấp qua các quy trình công việc của người dùng và xác minh các phần tử bố cục mà không cần các script kiểm thử dễ lỗi. Nếu một nút thay đổi màu sắc hoặc di chuyển, agent sẽ thích ứng một cách tự nhiên.
Robotic Process Automation kế thừa: Đối với các ứng dụng máy tính để bàn cũ thiếu các API hiện đại, CUA tăng cường sức mạnh cho Robotic Process Automation (RPA). Agent có thể mở một CRM cũ, đọc các hóa đơn không có cấu trúc và nhập dữ liệu đã trích xuất vào hệ thống theo cách thủ công, giúp hợp lý hóa việc nhập dữ liệu doanh nghiệp.

Link to this sectionXây dựng khả năng nhận thức cho CUA#

Mặc dù các VLM lớn có thể phân tích toàn bộ ảnh chụp màn hình, nhưng thường sẽ hiệu quả và chính xác hơn khi kết hợp chúng với các mô hình object detection cục bộ. Các mô hình này lập bản đồ các UI element như nút, biểu tượng và trường văn bản trong thời gian thực, cung cấp tọa độ chính xác để agent nhấp vào.

Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:

from ultralytics import YOLO

# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")

# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")

# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
    if model.names[int(box.cls)] == "button":
        x1, y1, x2, y2 = box.xyxy[0].tolist()
        print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")

Link to this sectionCUA so với các khái niệm liên quan#

Việc hiểu cách Computer Use Agents phù hợp với hệ sinh thái AI rộng lớn hơn là điều cần thiết để thực hiện các chiến lược action chunking phù hợp:

so với Auto-GPT: Trong khi Auto-GPT là một agent tự hành chủ yếu dựa vào việc tạo văn bản và các script được xác định trước để lặp qua các tác vụ, thì một CUA tương tác nội tại với các giao diện trực quan và hệ điều hành một cách trực tiếp.
so với Function Calling (Tool Use): Function Calling (Tool Use) cho phép AI thực thi một hàm code backend cụ thể, được xác định trước (như truy xuất API thời tiết). Ngược lại, các CUA thực thi các hành động UI front-end, thao tác với môi trường kỹ thuật số chính xác như cách người dùng cuối thực hiện.

Computer Use Agents (CUAs)

Link to this sectionSự chuyển dịch sang giao diện trực quan#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionXây dựng khả năng nhận thức cho CUA#

Link to this sectionCUA so với các khái niệm liên quan#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!