Tìm hiểu cách phân chia hành động giúp nâng cao độ chính xác của robot và quá trình học bắt chước. Khám phá cách sử dụng Ultralytics để giảm thiểu các lỗi tích lũy trong các tác nhân AI.
Phân đoạn hành động là một kỹ thuật học sâu tiên tiến, được ứng dụng rộng rãi trong lĩnh vực robot và học qua bắt chước, trong đó mô hình dự đoán một chuỗi (hay "phân đoạn") các hành động trong tương lai thay vì chỉ một hành động duy nhất tại mỗi bước thời gian. Bằng cách dự báo quỹ đạo nhiều bước, phân đoạn hành động cho phép các tác nhân AI thực hiện các tác vụ phức tạp, có tầm nhìn dài hạn với độ mượt mà và độ tin cậy cao hơn. Phương pháp này đã thu hút sự quan tâm đáng kể sau khi ra mắt Action Chunking with Transformers (ACT), một kiến trúc mô hình kết hợp dự báo thời gian với các đầu vào thị giác máy tính có chiều cao.
Trong phương pháp sao chép hành vi truyền thống, mô hình dự đoán bước tiếp theo dựa trên trạng thái hiện tại. Tuy nhiên, trong quá trình suy luận thời gian thực, những sai lệch nhỏ trong dự đoán có thể đẩy hệ thống vào các trạng thái chưa được quan sát. Những sai sót này nhanh chóng nhân lên, dẫn đến việc nhiệm vụ thất bại—một hiện tượng được gọi là “lỗi chồng chất”.
Phương pháp phân đoạn hành động giải quyết trực tiếp hạn chế này. Bằng cách dự đoán nhiều hành động cùng lúc (ví dụ: 50 chuyển động khớp trong khoảng thời gian 1 giây), phạm vi điều khiển hiệu quả được thu hẹp. Hệ thống cam kết thực hiện một kế hoạch ngắn hạn nhất quán dựa trên một quan sát thị giác đáng tin cậy duy nhất, giúp giảm đáng kể tần suất lỗi phản ứng. Khi tích hợp các mô hình nền tảng thị giác như Ultralytics để nhận thức không gian và xác định vị trí khung giới hạn, các dự đoán thu được trở nên cực kỳ ổn định trước nhiễu quá trình.
Phương pháp phân chia hành động đã mở ra những khả năng mới trong tự động hóa vật lý, đặc biệt khi được triển khai trên phần cứng AI biên được tối ưu hóa bởi các khung công nghệ như Intel :
Để hiểu rõ hơn về cách thức kỹ thuật này hòa nhập vào hệ sinh thái trí tuệ nhân tạo rộng lớn hơn, chúng ta nên phân biệt nó với các thuật ngữ tương tự:
Trong thực tế, hệ thống thị giác sẽ đánh giá môi trường, và bộ giải mã chuỗi sẽ tạo ra quỹ đạo được chia thành các đoạn. Sau đây Python minh họa một PyTorch (một giải pháp thay thế cho TensorFlow) chấp nhận trạng thái môi trường—chẳng hạn như trạng thái được suy ra từ một quá trình phát hiện đối tượng —và đưa ra một chuỗi các hành động trong tương lai .
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")
Việc quản lý các tập dữ liệu khổng lồ cần thiết để huấn luyện các chính sách robot này đòi hỏi rất nhiều tài nguyên. Các công ty hàng đầu trong ngành như OpenAI và Anthropic đang tiên phong trong lĩnh vực mô hình quy mô lớn, nhưng các nhà phát triển thông thường lại phụ thuộc vào các công cụ dễ tiếp cận. Ultralytics tối ưu hóa chu trình dữ liệu cho các đầu vào hình ảnh, cung cấp khả năng chú thích dữ liệu tự động và đào tạo mô hình liền mạch. Khi các mô hình phát triển theo hướng kiến trúc Vision-Language-Action (VLA) thống nhất, việc kết hợp các hệ thống thị giác hiệu quả với việc phân chia hành động mạnh mẽ sẽ tiếp tục định hình thế hệ tiếp theo của tự động hóa thông minh.
Bắt đầu hành trình của bạn với tương lai của học máy