Diffusion Forcing
Khám phá Diffusion Forcing, một mô hình tạo sinh kết hợp dự đoán tự hồi quy với diffusion chuỗi để tạo dữ liệu thời gian nhất quán.
Diffusion Forcing là một mô hình tạo sinh tiên tiến được giới thiệu vào năm 2024, kết hợp sức mạnh của việc dự đoán token kế tiếp theo kiểu tự hồi quy (autoregressive) với quá trình diffusion trên toàn bộ chuỗi. Bằng cách áp dụng các mức nhiễu độc lập và thay đổi cho các bước khác nhau trong một chuỗi, kỹ thuật này cho phép các mô hình machine learning tạo ra dữ liệu theo thời gian có độ nhất quán cao. Khác với các phương pháp truyền thống dự đoán từng token rời rạc hoặc khử nhiễu toàn bộ chuỗi cùng một lúc, Diffusion Forcing huấn luyện các mô hình đóng vai trò như những công cụ lập kế hoạch và tạo chuỗi mạnh mẽ, xử lý các trạng thái liên tục với các phụ thuộc phức tạp và dài hạn.
Link to this sectionCách thức hoạt động của Diffusion Forcing#
Về cốt lõi, Diffusion Forcing lấy cảm hứng từ kỹ thuật teacher forcing cổ điển được sử dụng trong mạng thần kinh tái phát (RNN). Tuy nhiên, thay vì đưa các token rời rạc từ dữ liệu thực (ground-truth) để dự đoán bước tiếp theo, nó đưa các lịch sử liên tục đã bị nhiễu một phần vào một causal Transformer. Mô hình học cách khử nhiễu trạng thái hiện tại dựa trên điều kiện của quá khứ. Điều này cho phép mạng lưới điều chỉnh linh hoạt mức độ nhiễu cho từng khung hình, tạo ra một khung làm việc linh hoạt cho các tác vụ đòi hỏi cả độ chính xác cục bộ và nhận thức thời gian bao quát.
Cách tiếp cận này đặc biệt hữu ích khi xây dựng các AI agents thông minh cần phản ứng với các môi trường không thể đoán trước trong khi vẫn tuân thủ kế hoạch dài hạn, giúp tránh các vấn đề tích lũy lỗi thường thấy trong các mô hình tự hồi quy tiêu chuẩn.
Link to this sectionCác ứng dụng trong thực tế#
Diffusion Forcing đang nhanh chóng giành được sự quan tâm trong một số lĩnh vực artificial intelligence phức tạp:
- Robotics and Visuo-Motor Control: Các cánh tay robot tự hành và hệ thống lái xe tự động sử dụng Diffusion Forcing để tạo ra các kế hoạch quỹ đạo mượt mà, liên tục. Bằng cách dự đoán các chuỗi lệnh điều khiển động cơ liên tục, robot có thể thích ứng với các chướng ngại vật động trong khi vẫn duy trì đường đi ổn định đến mục tiêu.
- Video Generation and Forecasting: Trong các đường ống computer vision tiên tiến, các mô hình tận dụng kỹ thuật này để dự đoán các khung hình video trong tương lai với sự nhất quán về thời gian nghiêm ngặt, tránh các hiện tượng nhấp nháy thường thấy ở các phương pháp tạo sinh trước đây.
Link to this sectionSo sánh Diffusion Forcing với các Diffusion Models tiêu chuẩn#
Mặc dù chia sẻ cơ chế khử nhiễu cơ bản, Diffusion Forcing khác biệt rõ rệt so với các Diffusion Models tiêu chuẩn. Các mô hình diffusion truyền thống, như các mô hình được sử dụng để tạo text-to-image, thường khử nhiễu tất cả các pixel hoặc biến ẩn của một đầu ra tĩnh duy nhất cùng một lúc. Ngược lại, Diffusion Forcing mô hình hóa rõ ràng một chuỗi thời gian, buộc mạng lưới phải tuân thủ thứ tự chuỗi nhân quả (causal sequence). Điều này làm cho nó phù hợp hơn nhiều cho các tác vụ theo thời gian như dự đoán quỹ đạo và action recognition.
Link to this sectionTích hợp xử lý chuỗi trong thực tế#
Trong khi Diffusion Forcing chủ yếu áp dụng cho các tác vụ chuỗi tạo sinh, việc diễn giải các chuỗi theo thời gian cũng quan trọng không kém trong các đường ống thị giác hiện đại. Ví dụ, bạn có thể theo dõi đối tượng hiệu quả qua các khung hình video tuần tự bằng cách sử dụng Ultralytics YOLO26, vốn xử lý tính nhất quán theo thời gian một cách tự nhiên trong quá trình object tracking.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")
# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)
# Iterate through the sequence of frames
for frame_result in results:
# Access temporal tracking IDs for objects in the current state
print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")Đối với các nhóm đang tìm cách mở rộng quy mô thu thập dữ liệu chuỗi và huấn luyện các mô hình thị giác tiên tiến, Ultralytics Platform cung cấp các công cụ dựa trên đám mây mạnh mẽ để quản lý các tập dữ liệu phức tạp, theo dõi thí nghiệm và triển khai mô hình trực tiếp tới edge. Cho dù bạn đang thử nghiệm với các transformers nhân quả hiện đại trong PyTorch hay triển khai các hệ thống theo dõi thời gian thực, việc nắm vững sự giao thoa giữa dữ liệu không gian và thời gian là điều cần thiết cho tương lai của AI.






