Computer Use Agents (CUAs)
Khám phá cách các Computer Use Agents (CUA) tự động hóa GUI giống như con người. Tìm hiểu cách xây dựng các hệ thống nhận thức CUA tiên tiến bằng Ultralytics YOLO26.
Computer Use Agents (CUAs) đại diện cho một bước tiến lớn trong cách các hệ thống trí tuệ nhân tạo tương tác với môi trường kỹ thuật số. Không giống như các AI Agents truyền thống vốn chỉ dựa hoàn toàn vào các backend API hoặc các prompt dạng văn bản, một CUA được thiết kế để tương tác với giao diện người dùng đồ họa (GUI) một cách chính xác như con người. Bằng cách quan sát màn hình, di chuyển con trỏ, nhấp vào các phần tử và gõ trên bàn phím ảo, các CUA đã xóa bỏ khoảng cách giữa các khả năng Generative AI trừu tượng và các thao tác phần mềm thực tế hằng ngày.
Sự tiến hóa này thường được xem là một bước tiến tới Artificial General Intelligence (AGI), vì nó thách thức những hạn chế lịch sử của trí tuệ máy móc—đôi khi được gọi là Moravec's Paradox—bằng cách yêu cầu AI phải nhận diện và điều hướng các môi trường trực quan đặc thù một cách liền mạch.
Link to this sectionChuyển dịch sang các Giao diện Trực quan#
Trong lịch sử, việc tự động hóa các tác vụ trên các ứng dụng phần mềm khác nhau đòi hỏi các tích hợp trực tiếp hoặc DOM-based parsing cứng nhắc. Tuy nhiên, thế hệ CUA mới nhất sử dụng các Vision-Language Models (VLM) tiên tiến và các kỹ thuật Computer Vision (CV) phức tạp để diễn giải các pixel trên màn hình.
Những bước đột phá đáng kể trong khoảng thời gian từ cuối năm 2024 đến đầu năm 2025 đã thúc đẩy tốc độ áp dụng CUA. Ví dụ: Anthropic's Claude Computer Use đã giới thiệu một API tổng quát cho phép các mô hình quan sát màn hình desktop và nhấp chuột tương tác với các ứng dụng. Tương tự, OpenAI's Operator đã ra mắt dưới dạng bản xem trước cho nghiên cứu, có khả năng thực hiện các tác vụ duyệt web mở. Các hệ thống này hiện thường xuyên được đánh giá trên các bộ benchmark nghiêm ngặt như WebArena và OSWorld để đo lường khả năng hoàn thành các quy trình làm việc kỹ thuật số phức tạp, đa bước.
Vì các tác nhân này có quyền kiểm soát trực tiếp hệ thống, các nhà phát triển được khuyến cáo mạnh mẽ nên chạy chúng trong các Virtual Machines được cô lập (sandbox) để giảm thiểu các rủi ro như hành động không mong muốn hoặc Prompt Injection độc hại.
Link to this sectionCác Ứng dụng trong Thế giới Thực#
Các CUA đang nhanh chóng thay đổi các ngành công nghiệp bằng cách thực hiện các tác vụ phức tạp, đa bước trên các hệ sinh thái phần mềm cô lập.
- Autonomous Quality Assurance (QA): Trong GUI automation testing, các CUA có thể điều hướng trực quan qua các ứng dụng web, nhấp qua các luồng công việc của người dùng và xác minh các phần tử bố cục mà không cần đến các kịch bản kiểm thử kém linh hoạt. Nếu một nút thay đổi màu sắc hoặc di chuyển, tác nhân sẽ thích nghi một cách tự nhiên.
- Legacy Robotic Process Automation: Đối với các ứng dụng desktop cũ thiếu các API hiện đại, các CUA giúp tăng cường sức mạnh cho Robotic Process Automation (RPA). Tác nhân có thể mở một CRM cũ, đọc các hóa đơn không có cấu trúc và tự nhập dữ liệu đã trích xuất vào hệ thống, giúp tinh giản quá trình nhập dữ liệu cho doanh nghiệp.
Link to this sectionXây dựng Khả năng Nhận thức cho CUA#
Mặc dù các VLM lớn có thể phân tích toàn bộ ảnh chụp màn hình, nhưng việc kết hợp chúng với các mô hình object detection cục bộ thường mang lại hiệu quả và độ chính xác cao hơn. Các mô hình này lập bản đồ các UI elements như nút, biểu tượng và trường văn bản theo thời gian thực, cung cấp tọa độ chính xác để tác nhân nhấp vào.
Developers can use frameworks like PyTorch alongside the Ultralytics YOLO26 model to build highly responsive perception layers for a CUA. The Ultralytics Platform can be utilized for model training on custom GUI datasets. The following Python snippet demonstrates how a CUA might use the ultralytics package's predict mode to find a button on the screen:
from ultralytics import YOLO
# Initialize a YOLO26 model specifically trained to detect GUI components
model = YOLO("yolo26n-gui.pt")
# The CUA captures a screenshot and maps out the visual interface
results = model.predict("desktop_screenshot.png")
# The agent extracts coordinates to execute a physical action (e.g., mouse click)
for box in results[0].boxes:
if model.names[int(box.cls)] == "button":
x1, y1, x2, y2 = box.xyxy[0].tolist()
print(f"CUA Action: Moving cursor to center of button at ({(x1 + x2) / 2}, {(y1 + y2) / 2})")Link to this sectionCUA so với các Khái niệm Liên quan#
Việc hiểu rõ vị trí của Computer Use Agents trong hệ sinh thái AI rộng lớn hơn là điều cần thiết để triển khai các chiến lược action chunking phù hợp:
- so với Auto-GPT: Trong khi Auto-GPT là một tác nhân tự hành chủ yếu dựa vào việc tạo văn bản và các kịch bản được định nghĩa trước để thực hiện các tác vụ lặp lại, thì CUA vốn dĩ tương tác trực tiếp với các giao diện trực quan và hệ điều hành.
- so với Function Calling (Tool Use): Function Calling (Tool Use) cho phép AI thực thi một hàm mã backend cụ thể, được định nghĩa trước (như lấy dữ liệu API thời tiết). Ngược lại, các CUA thực thi các hành động UI ở front-end, thao tác trên môi trường kỹ thuật số chính xác như cách người dùng cuối thực hiện.






