Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Lực khuếch tán

Khám phá Diffusion Forcing, một mô hình tạo sinh kết hợp dự đoán tự hồi quy với khuếch tán chuỗi để tạo ra dữ liệu thời gian nhất quán.

Diffusion Forcing là một mô hình tạo sinh tiên tiến được giới thiệu vào năm 2024, kết hợp thế mạnh của dự đoán token tiếp theo bằng phương pháp tự hồi quy với khuếch tán toàn chuỗi. Bằng cách áp dụng các mức nhiễu độc lập và biến đổi cho các bước khác nhau trong một chuỗi, kỹ thuật này cho phép các mô hình học máy tạo ra dữ liệu thời gian có tính nhất quán cao. Không giống như các phương pháp truyền thống chỉ dự đoán từng token riêng lẻ hoặc khử nhiễu toàn bộ chuỗi cùng một lúc, Diffusion Forcing huấn luyện các mô hình hoạt động như các công cụ lập kế hoạch và tạo chuỗi mạnh mẽ, xử lý các trạng thái liên tục với các phụ thuộc phức tạp, dài hạn.

Cơ chế hoạt động của lực khuếch tán

Về bản chất, Diffusion Forcing lấy cảm hứng từ phương pháp teacher forcing cổ điển được sử dụng trong mạng nơ-ron hồi quy. Tuy nhiên, thay vì cung cấp các token rời rạc để dự đoán bước tiếp theo, nó cung cấp các chuỗi lịch sử liên tục bị nhiễu một phần cho một bộ chuyển đổi nhân quả. Mô hình học cách khử nhiễu trạng thái hiện tại dựa trên quá khứ. Điều này cho phép mạng điều chỉnh động mức độ nhiễu trên mỗi khung hình, cung cấp một khung linh hoạt cho các tác vụ yêu cầu cả độ chính xác cục bộ và nhận thức thời gian rộng.

Cách tiếp cận này mang lại lợi ích rất lớn khi xây dựng các tác nhân AI thông minh phải phản ứng với môi trường khó lường trong khi vẫn tuân thủ một kế hoạch dài hạn, tránh được các vấn đề lỗi tích lũy thường gặp trong các mô hình tự hồi quy tiêu chuẩn.

Các Ứng dụng Thực tế

Công nghệ cưỡng bức khuếch tán đang nhanh chóng được ứng dụng rộng rãi trong nhiều lĩnh vực trí tuệ nhân tạo phức tạp:

  • Robot học và điều khiển vận động thị giác : Các cánh tay robot tự hành và hệ thống tự lái sử dụng phương pháp điều khiển khuếch tán (Diffusion Forcing) để tạo ra các kế hoạch quỹ đạo mượt mà, liên tục. Bằng cách dự đoán chuỗi các lệnh điều khiển động cơ liên tục, robot có thể thích ứng với các chướng ngại vật động trong khi vẫn duy trì đường đi ổn định đến mục tiêu.
  • Tạo và Dự báo Video : Trong các quy trình xử lý hình ảnh máy tính tiên tiến, các mô hình tận dụng kỹ thuật này để dự đoán các khung hình video trong tương lai với độ nhất quán thời gian nghiêm ngặt, tránh các hiện tượng nhấp nháy thường thấy trong các phương pháp tạo sinh trước đây.

Sự khuếch tán cưỡng bức so với các mô hình khuếch tán tiêu chuẩn

Mặc dù cùng chia sẻ một cơ chế khử nhiễu cơ bản, Diffusion Forcing khác biệt rõ rệt so với các mô hình khuếch tán tiêu chuẩn. Các mô hình khuếch tán truyền thống, như những mô hình được sử dụng để tạo ảnh từ văn bản , thường khử nhiễu đồng thời tất cả các pixel hoặc biến tiềm ẩn của một đầu ra tĩnh duy nhất. Ngược lại, Diffusion Forcing mô hình hóa rõ ràng một chuỗi thời gian, buộc mạng phải tuân thủ thứ tự chuỗi nhân quả. Điều này làm cho nó phù hợp hơn nhiều cho các nhiệm vụ liên quan đến thời gian như dự đoán quỹ đạo và nhận dạng hành động .

Tích hợp xử lý chuỗi trong thực tiễn

Mặc dù kỹ thuật Diffusion Forcing chủ yếu được áp dụng cho các tác vụ tạo chuỗi hình ảnh, việc diễn giải các chuỗi thời gian cũng quan trọng không kém trong các quy trình xử lý hình ảnh hiện đại. Ví dụ, bạn có thể hiệu quả track Các đối tượng trên các khung hình video liên tiếp được tạo bằng Ultralytics YOLO26 , công cụ này xử lý tính nhất quán về mặt thời gian một cách tự nhiên trong quá trình theo dõi đối tượng .

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")

# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)

# Iterate through the sequence of frames
for frame_result in results:
    # Access temporal tracking IDs for objects in the current state
    print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")

Đối với các nhóm muốn mở rộng quy mô thu thập dữ liệu chuỗi và huấn luyện các mô hình thị giác tiên tiến, Nền tảng Ultralytics cung cấp các công cụ dựa trên đám mây mạnh mẽ để quản lý các tập dữ liệu phức tạp. track thực hiện các thí nghiệm và triển khai các mô hình trực tiếp lên thiết bị biên. Cho dù bạn đang thử nghiệm với các bộ chuyển đổi nhân quả tiên tiến trong PyTorch hay triển khai các hệ thống theo dõi thời gian thực, việc nắm vững sự giao thoa giữa dữ liệu không gian và thời gian là điều cần thiết cho tương lai của AI.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy