Action Chunking
Tìm hiểu cách action chunking cải thiện độ chính xác của robot và học bắt chước. Khám phá cách sử dụng Ultralytics YOLO26 để giảm thiểu sai số tích lũy trong các tác nhân AI.
Action chunking là một kỹ thuật deep learning tiên tiến, được sử dụng rộng rãi trong robot học và imitation learning, trong đó một model dự đoán một chuỗi (hay "chunk") các hành động trong tương lai thay vì chỉ một hành động duy nhất tại mỗi timestep. Bằng cách dự báo quỹ đạo đa bước, action chunking cho phép các AI agents thực hiện các tác vụ phức tạp với tầm nhìn xa và độ ổn định cao hơn. Phương pháp này đã nhận được sự quan tâm đáng kể sau khi giới thiệu Action Chunking with Transformers (ACT), một kiến trúc model kết hợp dự báo thời gian với các đầu vào computer vision đa chiều.
Link to this sectionGiảm thiểu sai số tích lũy#
Trong behavioral cloning truyền thống, một model dự đoán bước tiếp theo ngay lập tức dựa trên trạng thái hiện tại. Tuy nhiên, trong quá trình real-time inference, những sai số dự đoán nhỏ sẽ đẩy hệ thống vào các trạng thái chưa quan sát thấy. Những sai lầm này tích lũy nhanh chóng, dẫn đến thất bại trong tác vụ—một hiện tượng được gọi là sai số tích lũy.
Action chunking giải quyết trực tiếp hạn chế này. Bằng cách dự đoán nhiều hành động cùng lúc (ví dụ: 50 chuyển động khớp bao phủ 1 giây chuyển động), phạm vi kiểm soát hiệu quả được giảm xuống. Hệ thống cam kết thực hiện một kế hoạch ngắn hạn nhất quán dựa trên một quan sát hình ảnh đáng tin cậy duy nhất, giúp giảm đáng kể tần suất các lỗi phản ứng. Khi tích hợp các vision backbone như Ultralytics YOLO26 để nhận thức không gian và định vị bounding box, các dự đoán thu được trở nên cực kỳ ổn định trước nhiễu quy trình.
Link to this sectionCác ứng dụng trong thực tế#
Action chunking đã mở ra những khả năng mới trong tự động hóa vật lý, đặc biệt là khi được triển khai trên phần cứng edge AI được tối ưu hóa bởi các framework như Intel Edge:
- Thao tác Robot tinh vi: Trong tự động hóa công nghiệp, robot sử dụng các dự đoán được chunk để thực hiện các tác vụ đòi hỏi độ chính xác cao như luồn cáp, lắp pin hoặc xử lý các mặt hàng được theo dõi bởi package segmentation datasets. Việc tạo ra các chuỗi hành động gắn kết giúp ngăn chặn các chuyển động giật, không nhất quán thường thấy trong imitation learning đơn bước.
- Điều hướng tự hành: Trong lái xe tự hành và bay drone, việc dự báo một khối các lệnh điều khiển (như lái và tăng tốc) cho phép lập kế hoạch quỹ đạo mượt mà hơn, một khái niệm được nghiên cứu mạnh mẽ trong các IEEE robotics papers gần đây. Kết hợp với object tracking và depth estimation liên tục, các phương tiện có thể điều hướng an toàn trong môi trường động phức tạp.
Link to this sectionPhân biệt các khái niệm liên quan#
Để hiểu rõ hơn về cách kỹ thuật này phù hợp với hệ sinh thái artificial intelligence rộng lớn hơn, việc phân biệt nó với các thuật ngữ tương tự rất hữu ích:
- Action Chunking so với Action Recognition: Trong khi action chunking tạo ra một chuỗi các lệnh tương lai để máy thực hiện, action recognition là quá trình phân tích nhằm xác định các hoạt động đang diễn ra trong luồng video.
- Action Chunking so với các Sequence-to-Sequence Models: Các kiến trúc sequence-to-sequence ánh xạ một chuỗi đầu vào sang một chuỗi đầu ra và được sử dụng rộng rãi trong machine translation. Action chunking sử dụng mạnh mẽ các kiến trúc này—đặc biệt là Transformers—nhưng hạn chế đầu ra chỉ ở các điều khiển động cơ cấp thấp và động học thay vì văn bản.
- Action Chunking so với Reinforcement Learning: Reinforcement learning dựa vào các tín hiệu phần thưởng để dạy một agent thông qua thử và sai. Ngược lại, action chunking chủ yếu được triển khai trong supervised behavioral cloning, nơi model học trực tiếp từ các minh chứng của con người mà không cần tối ưu hóa phần thưởng rõ ràng.
Link to this sectionTriển khai Action Chunking#
Trên thực tế, một vision system sẽ đánh giá môi trường, và một bộ giải mã chuỗi sẽ tạo ra quỹ đạo đã được chunk. Đoạn mã Python sau đây minh họa một PyTorch module (thay thế cho TensorFlow) khái niệm nhận vào một trạng thái môi trường—chẳng hạn như một trạng thái có nguồn gốc từ quá trình object detection—và xuất ra một chuỗi các hành động trong tương lai.
import torch
import torch.nn as nn
class ActionChunker(nn.Module):
def __init__(self, state_dim, action_dim, chunk_size):
super().__init__()
# Maps the current state to a sequence of future actions
self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
self.chunk_size = chunk_size
self.action_dim = action_dim
def forward(self, state):
# Predict the entire action chunk at once
chunk = self.decoder(state)
return chunk.view(-1, self.chunk_size, self.action_dim)
# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)
# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)
print(f"Action Chunk Shape: {action_trajectory.shape}")Việc quản lý các tập dữ liệu khổng lồ cần thiết để huấn luyện các chính sách robot này đòi hỏi nhiều tài nguyên. Các công ty hàng đầu như OpenAI và Anthropic tiên phong trong các model quy mô lớn, nhưng các nhà phát triển thông thường dựa vào các công cụ dễ tiếp cận. Ultralytics Platform hợp lý hóa vòng đời dữ liệu cho các đầu vào hình ảnh, cung cấp khả năng data annotation tự động và model training liền mạch. Khi các model phát triển theo hướng kiến trúc Vision-Language-Action (VLA) hợp nhất, việc kết hợp các vision system hiệu quả với action chunking mạnh mẽ sẽ tiếp tục định hình thế hệ tự động hóa thông minh tiếp theo.






