Diffusion Policies
Khám phá cách Diffusion Policies định hình robot hiện đại. Tìm hiểu cách chúng mô hình hóa các hành động thông qua khử nhiễu và tích hợp với Ultralytics YOLO26 để đạt được khả năng nhận diện thông minh.
Diffusion Policies đại diện cho một bước ngoặt trong robotics và machine learning, nơi visuomotor policy của một AI agent được mô hình hóa như một quá trình khuếch tán khử nhiễu có điều kiện. Theo truyền thống, behavior cloning—một dạng của imitation learning—dựa vào hồi quy trực tiếp để dự đoán một hành động tất định duy nhất từ dữ liệu cảm biến đầu vào. Mặc dù hiệu quả cho các tác vụ đơn giản, hồi quy trực tiếp thường thất bại khi tồn tại nhiều hành động hợp lệ, dẫn đến các chuyển động trung bình không ổn định hoặc không an toàn. Diffusion policies giải quyết vấn đề này bằng cách đóng khung việc tạo hành động như một tác vụ tinh chỉnh chuỗi. Bắt đầu từ nhiễu ngẫu nhiên thuần túy, thuật toán khử nhiễu tín hiệu một cách lặp đi lặp lại—có điều kiện dựa trên các quan sát cảm biến như hình ảnh hoặc dữ liệu trạng thái không gian—để tạo ra các chuỗi hành động chính xác, mạnh mẽ và đa phương thức.
Link to this sectionCách hoạt động của Diffusion Policies#
Cơ chế cốt lõi dựa trên toán học trong generative modeling, thích ứng với các kỹ thuật được phát triển ban đầu cho tổng hợp hình ảnh độ trung thực cao trong original visuomotor diffusion policy paper. Trong giai đoạn huấn luyện, được gọi là quá trình thuận (forward process), một lượng nhỏ nhiễu được thêm dần dần vào các quỹ đạo hành động chuyên gia tối ưu. Một neural network sau đó được huấn luyện để dự đoán và đảo ngược nhiễu này dựa trên ngữ cảnh quan sát được cung cấp.
Trong quá trình inference, khi robot tương tác với môi trường của nó, nó quan sát môi trường xung quanh, khởi tạo một chuỗi hành động ngẫu nhiên và khử nhiễu nó bằng Langevin dynamics ngẫu nhiên. Quá trình tối ưu hóa lặp lại này tạo ra các lệnh điều khiển động cơ mượt mà, chi tiết, có khả năng xử lý các không gian hành động phức tạp, đa chiều.
Link to this sectionCác ứng dụng trong thực tế#
Bằng cách biểu diễn chính xác các phân phối phức tạp mà không gặp phải mode collapse, diffusion policies đang tích cực định hình lại lĩnh vực artificial intelligence vật lý hiện đại.
- Robotic Manipulation: Trong môi trường công nghiệp, cánh tay robot sử dụng các chính sách này cho các tác vụ khéo léo, giàu tính tương tác như nắm bắt các vật thể có hình dạng bất thường, lắp ráp các thiết bị điện tử phức tạp hoặc thực hiện các chuyển động rót chất lỏng trơn tru.
- Autonomous Navigation: Hệ thống tự lái và máy bay không người lái kết hợp depth estimation với diffusion policies để lập kế hoạch quỹ đạo an toàn, liên tục qua các môi trường năng động, thích ứng một cách linh hoạt với các chướng ngại vật bất ngờ mà nếu không thì sẽ làm các mô hình reinforcement learning tiêu chuẩn bị bối rối.
Link to this sectionPhân biệt các thuật ngữ chính#
Để làm rõ chức năng cụ thể của diffusion policies, việc phân biệt chúng với các kiến trúc tạo sinh có liên quan chặt chẽ là rất hữu ích:
- Diffusion Policies vs. Diffusion Models: Diffusion Models đề cập rộng rãi đến kiến trúc tạo sinh cơ bản được sử dụng để tạo dữ liệu tĩnh như tổng hợp văn bản thành hình ảnh. Diffusion Policies áp dụng cơ chế cụ thể này để dự đoán các lệnh điều khiển động cơ chuỗi thời gian liên tục cho các robot đang hoạt động.
- Diffusion Policies vs. Diffusion Forcing: Diffusion Forcing là một khung tạo chuỗi tổng quát huấn luyện các causal transformers bằng cách sử dụng các mức nhiễu khác nhau trên mỗi token. Mặc dù có liên quan, diffusion forcing tập trung mạnh vào dự đoán tự hồi quy, trong khi diffusion policies biểu thị chính xác chiến lược học bắt chước cho kiểm soát visuomotor.
Link to this sectionNhững tiến bộ gần đây trong học chính sách#
Nghiên cứu từ các tổ chức hàng đầu, bao gồm OpenAI research initiatives và Google DeepMind robotics, tiếp tục mở rộng ranh giới những gì các thuật toán này có thể đạt được. Đáng chú ý, 3D Diffusion Policy (DP3), được xuất bản trên arXiv vào năm 2024, đã giới thiệu một bước đột phá bằng cách điều kiện hóa các chính sách trên các biểu diễn 3D point cloud nhỏ gọn thay vì hình ảnh 2D đơn giản. Điều này cải thiện đáng kể nhận thức không gian của robot trong khi đòi hỏi ít minh họa của chuyên gia hơn đáng kể. Các đổi mới hơn nữa như D3P: Dynamic Denoising Diffusion Policy đã bắt đầu giải quyết tốc độ inference chậm của diffusion tiêu chuẩn bằng cách bỏ qua các bước khử nhiễu một cách linh hoạt cho các hành động thông thường, mở khóa khả năng phản hồi theo thời gian thực.
Link to this sectionTriển khai thực tế với Computer Vision#
Trước khi một diffusion policy có thể tạo ra một hành động, nó đòi hỏi sự hiểu biết rõ ràng, có cấu trúc về môi trường của nó. Các kỹ sư thường kết hợp các mô hình object detection mạnh mẽ với các thuật toán chính sách để tạo thành một computer vision pipeline hoàn chỉnh. Ví dụ, một mô hình nhận thức nhanh như Ultralytics YOLO26 có thể cô lập các đối tượng mục tiêu trong thời gian thực, cung cấp tọa độ không gian vào một diffusion policy dựa trên PyTorch library.
import torch
from ultralytics import YOLO
# Load the Ultralytics YOLO26 Nano model for high-speed robotic perception
model = YOLO("yolo26n.pt")
# Predict bounding boxes on the robot's active camera feed
results = model.predict("robot_camera_feed.jpg")
# Condition the policy by extracting the bounding box center coordinate
if len(results[0].boxes) > 0:
box = results[0].boxes[0].xyxy.squeeze()
center_x = (box[0] + box[2]) / 2.0
center_y = (box[1] + box[3]) / 2.0
# Create a spatial observation tensor to condition the PyTorch Diffusion Policy.
# This directly guides the denoising process to generate accurate motor actions.
observation_state = torch.tensor([center_x, center_y])
print(f"Conditioning action trajectory on object center: {observation_state}")Để hợp lý hóa quy trình này, các nhà phát triển có thể sử dụng Ultralytics Platform để tận dụng các auto-annotation tools nhanh chóng cho các bộ dữ liệu tùy chỉnh. Hỗ trợ end-to-end này đẩy nhanh quá trình model deployment từ các luồng camera thô thành trí tuệ robot có thể hành động.






