YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Phân chia hành động

Tìm hiểu cách phân chia hành động giúp nâng cao độ chính xác của robot và quá trình học bắt chước. Khám phá cách sử dụng Ultralytics để giảm thiểu các lỗi tích lũy trong các tác nhân AI.

Phân đoạn hành động là một kỹ thuật học sâu tiên tiến, được ứng dụng rộng rãi trong lĩnh vực robot và học qua bắt chước, trong đó mô hình dự đoán một chuỗi (hay "phân đoạn") các hành động trong tương lai thay vì chỉ một hành động duy nhất tại mỗi bước thời gian. Bằng cách dự báo quỹ đạo nhiều bước, phân đoạn hành động cho phép các tác nhân AI thực hiện các tác vụ phức tạp, có tầm nhìn dài hạn với độ mượt mà và độ tin cậy cao hơn. Phương pháp này đã thu hút sự quan tâm đáng kể sau khi ra mắt Action Chunking with Transformers (ACT), một kiến trúc mô hình kết hợp dự báo thời gian với các đầu vào thị giác máy tính có chiều cao.

Giảm thiểu các sai sót chồng chất

Trong phương pháp sao chép hành vi truyền thống, mô hình dự đoán bước tiếp theo dựa trên trạng thái hiện tại. Tuy nhiên, trong quá trình suy luận thời gian thực, những sai lệch nhỏ trong dự đoán có thể đẩy hệ thống vào các trạng thái chưa được quan sát. Những sai sót này nhanh chóng nhân lên, dẫn đến việc nhiệm vụ thất bại—một hiện tượng được gọi là “lỗi chồng chất”.

Phương pháp phân đoạn hành động giải quyết trực tiếp hạn chế này. Bằng cách dự đoán nhiều hành động cùng lúc (ví dụ: 50 chuyển động khớp trong khoảng thời gian 1 giây), phạm vi điều khiển hiệu quả được thu hẹp. Hệ thống cam kết thực hiện một kế hoạch ngắn hạn nhất quán dựa trên một quan sát thị giác đáng tin cậy duy nhất, giúp giảm đáng kể tần suất lỗi phản ứng. Khi tích hợp các mô hình nền tảng thị giác như Ultralytics để nhận thức không gian và xác định vị trí khung giới hạn, các dự đoán thu được trở nên cực kỳ ổn định trước nhiễu quá trình.

Các Ứng dụng Thực tế

Phương pháp phân chia hành động đã mở ra những khả năng mới trong tự động hóa vật lý, đặc biệt khi được triển khai trên phần cứng AI biên được tối ưu hóa bởi các khung công nghệ như Intel :

  • Thao tác robot chi tiết: Trong tự động hóa công nghiệp, robot sử dụng các dự đoán theo khối để thực hiện các tác vụ có nhiều tiếp xúc đòi hỏi độ chính xác cao, chẳng hạn như luồn cáp, lắp pin vào khe hoặc xử lý các vật phẩm được theo dõi bởi bộ dữ liệu phân đoạn gói hàng. Việc tạo ra các chuỗi hành động liền mạch giúp tránh được những chuyển động giật cục và thiếu nhất quán thường thấy trong phương pháp học bắt chước từng bước.
  • Điều hướng tự động: Trong lĩnh vực lái xe tự động và điều khiển máy bay không người lái, việc dự báo một chuỗi lệnh điều khiển (như đánh lái và tăng tốc) giúp lập kế hoạch quỹ đạo mượt mà hơn, một khái niệm đã được nghiên cứu sâu rộng trong các bài báo gần đây về robotics của IEEE. Kết hợp với việc theo dõi liên tục đối tượng ước lượng độ sâu, các phương tiện có thể di chuyển an toàn trong các môi trường động phức tạp.

Phân biệt các khái niệm liên quan

Để hiểu rõ hơn về cách thức kỹ thuật này hòa nhập vào hệ sinh thái trí tuệ nhân tạo rộng lớn hơn, chúng ta nên phân biệt nó với các thuật ngữ tương tự:

  • Phân chia hành động so với nhận diện hành động: Trong khi phân chia hành động tạo ra một chuỗi các lệnh trong tương lai để máy móc thực thi, thì nhận diện hành động là quá trình phân tích nhằm xác định các hoạt động đang diễn ra trong luồng video.
  • Phương pháp Action Chunking so với các mô hình Sequence-to-Sequence: Các kiến trúc Sequence-to-Sequence ánh xạ một chuỗi đầu vào sang một chuỗi đầu ra và được sử dụng rộng rãi trong dịch máy. Phương pháp Action Chunking tận dụng mạnh mẽ các kiến trúc này — cụ thể là Transformers— nhưng giới hạn đầu ra chỉ ở các lệnh điều khiển vận động cấp thấp và động học, thay vì văn bản.
  • Phân đoạn hành động so với Học tăng cường : Học tăng cường dựa vào các tín hiệu phần thưởng để huấn luyện tác nhân thông qua quá trình thử và sai. Ngược lại, phân đoạn hành động chủ yếu được áp dụng trong việc sao chép hành vi có giám sát, nơi mô hình học trực tiếp từ các bài trình diễn của con người mà không cần tối đa hóa phần thưởng một cách rõ ràng.

Áp dụng phương pháp chia nhỏ hành động

Trong thực tế, hệ thống thị giác sẽ đánh giá môi trường, và bộ giải mã chuỗi sẽ tạo ra quỹ đạo được chia thành các đoạn. Sau đây Python minh họa một PyTorch (một giải pháp thay thế cho TensorFlow) chấp nhận trạng thái môi trường—chẳng hạn như trạng thái được suy ra từ một quá trình phát hiện đối tượng —và đưa ra một chuỗi các hành động trong tương lai .

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

Việc quản lý các tập dữ liệu khổng lồ cần thiết để huấn luyện các chính sách robot này đòi hỏi rất nhiều tài nguyên. Các công ty hàng đầu trong ngành như OpenAIAnthropic đang tiên phong trong lĩnh vực mô hình quy mô lớn, nhưng các nhà phát triển thông thường lại phụ thuộc vào các công cụ dễ tiếp cận. Ultralytics tối ưu hóa chu trình dữ liệu cho các đầu vào hình ảnh, cung cấp khả năng chú thích dữ liệu tự động và đào tạo mô hình liền mạch. Khi các mô hình phát triển theo hướng kiến trúc Vision-Language-Action (VLA) thống nhất, việc kết hợp các hệ thống thị giác hiệu quả với việc phân chia hành động mạnh mẽ sẽ tiếp tục định hình thế hệ tiếp theo của tự động hóa thông minh.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy