Diffusion Transformer (DiT)

Khám phá cách Diffusion Transformers (DiT) hợp nhất transformer với các diffusion models để tổng hợp độ trung thực cao. Tìm hiểu về khả năng mở rộng, Sora và Ultralytics YOLO26.

Diffusion Transformer (DiT) là một kiến trúc tạo sinh tiên tiến kết hợp sức mạnh xử lý tuần tự của transformers với khả năng tổng hợp hình ảnh độ trung thực cao của diffusion models. Theo truyền thống, các hệ thống dựa trên khuếch tán phụ thuộc rất nhiều vào kiến trúc U-Net tích chập để khử nhiễu đầu vào và tạo hình ảnh theo phương pháp lặp. DiT thay thế xương sống U-Net này bằng một kiến trúc transformer có khả năng mở rộng, coi dữ liệu hình ảnh như một chuỗi các bản vá (patch), tương tự như cách Vision Transformer (ViT) phân tích hình ảnh. Sự thay đổi mô hình này cho phép các mô hình mở rộng quy mô một cách dễ dự đoán hơn, tận dụng tài nguyên tính toán tăng cường để tạo ra các kết quả đầu ra ngày càng chân thực và mạch lạc hơn.

Link to this sectionPhân biệt DiT và các mô hình khuếch tán truyền thống#

Trong khi các mô hình khuếch tán truyền thống là nền tảng cho Generative AI hiện đại, xương sống U-Net của chúng thường đối mặt với các nút thắt cổ chai khi mở rộng lên số lượng tham số khổng lồ. Ngược lại, Diffusion Transformer kế thừa nguyên bản các quy luật mở rộng quan sát được trong các Large Language Models (LLMs). Bằng cách loại bỏ các sai lệch lấy mẫu xuống không gian và sử dụng các cơ chế tự chú ý (self-attention) toàn cục, DiT học được các mối quan hệ không gian phức tạp trên toàn bộ khung hình ảnh hoặc video. Để đi sâu hơn vào nguồn gốc của hành vi mở rộng này, bạn có thể xem lại bài báo nghiên cứu DiT gốc được công bố trên arXiv, vốn đã thiết lập các tiêu chuẩn hiệu suất này.

Link to this sectionCác ứng dụng trong thực tế#

Tính linh hoạt và khả năng mở rộng của Diffusion Transformer đã tạo ra những đột phá đáng kể trong nhiều lĩnh vực computer vision:

Tạo video độ trung thực cao: Ứng dụng nổi bật nhất của kiến trúc DiT được tìm thấy trong các mô hình chuyển văn bản thành video, chẳng hạn như mô hình Sora của OpenAI. Bằng cách hiểu tính nhất quán theo thời gian và không gian 3D, DiT có thể tổng hợp các đoạn video siêu thực dài hàng phút, duy trì logic vật lý trên từng khung hình, tạo ra cuộc cách mạng trong việc sáng tạo nội dung kỹ thuật số và hiệu ứng hình ảnh.
Tổng hợp hình ảnh nâng cao: Trong thiết kế thương mại và tạo nghệ thuật bằng artificial intelligence, DiT cung cấp độ trung thực từ văn bản thành hình ảnh chưa từng có. Chúng được các công ty sáng tạo sử dụng để tạo ra các tài sản tiếp thị có độ chính xác cao, kết xuất các lời nhắc phức tạp với kiểu chữ chính xác và tính chân thực về bố cục mà các mô hình U-Net trước đó gặp khó khăn trong việc đạt được.

Link to this sectionTriển khai các khái niệm Transformer#

Mặc dù DiT chủ yếu được sử dụng cho các tác vụ tạo sinh nặng, bạn có thể khám phá các cơ chế tự chú ý nền tảng mà chúng dựa vào bằng cách sử dụng các thư viện deep learning tiêu chuẩn. Đoạn mã Python sau đây sử dụng PyTorch để minh họa cách các bản vá hình ảnh phẳng được xử lý thông qua một lớp transformer, một thao tác cốt lõi trong mạng DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Để biết chi tiết kỹ thuật toàn diện về các lớp chú ý, tài liệu PyTorch về các mô-đun Transformer cung cấp một điểm khởi đầu tuyệt vời.

Link to this sectionKết nối giữa tạo sinh và phát hiện#

Diffusion Transformer đại diện cho đỉnh cao của việc tạo nội dung, nhưng nhiều quy trình công việc doanh nghiệp đòi hỏi phân tích hình ảnh theo thời gian thực thay vì tổng hợp. Đối với các tác vụ yêu cầu suy luận tốc độ cao, chẳng hạn như object detection và image segmentation, các mô hình nhẹ được tối ưu hóa cho thiết bị biên vẫn là tiêu chuẩn ngành.

Ultralytics YOLO26 được thiết kế chính xác cho các tác vụ computer vision phân tích này. Nó mang lại tốc độ và độ chính xác vượt trội ngay khi triển khai, tránh được chi phí tính toán nặng nề cần thiết bởi các transformer tạo sinh khổng lồ. Để chuyển đổi dễ dàng từ việc tạo tập dữ liệu sang triển khai cấp doanh nghiệp, các nhà phát triển dựa vào Ultralytics Platform, một giải pháp toàn diện để quản lý các pipeline AI hình ảnh mạnh mẽ. Để có góc nhìn rộng hơn về cách các mô hình tạo sinh và mô hình phân tích so sánh với nhau, Khóa học cấp tốc về học máy của Google cung cấp bối cảnh nền tảng tuyệt vời.

Diffusion Transformer (DiT)

Link to this sectionPhân biệt DiT và các mô hình khuếch tán truyền thống#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionTriển khai các khái niệm Transformer#

Link to this sectionKết nối giữa tạo sinh và phát hiện#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!