Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Bộ biến đổi khuếch tán (DiT)

Khám phá cách Diffusion Transformers (DiT) kết hợp các bộ biến đổi với mô hình khuếch tán để tạo ra âm thanh tổng hợp chất lượng cao. Tìm hiểu về tỷ lệ, Sora và... Ultralytics YOLO26.

Bộ chuyển đổi khuếch tán (Diffusion Transformer - DiT) là một kiến ​​trúc tạo sinh tiên tiến, kết hợp sức mạnh xử lý tuần tự của các bộ chuyển đổi với khả năng tổng hợp hình ảnh chất lượng cao của các mô hình khuếch tán . Theo truyền thống, các hệ thống dựa trên khuếch tán phụ thuộc rất nhiều vào kiến ​​trúc mạng U-Net tích chập để khử nhiễu đầu vào lặp đi lặp lại và tạo ra hình ảnh. DiT thay thế kiến ​​trúc U-Net này bằng một kiến ​​trúc bộ chuyển đổi có khả năng mở rộng, xử lý dữ liệu hình ảnh như một chuỗi các mảng nhỏ, tương tự như cách Bộ chuyển đổi thị giác (Vision Transformer - ViT) phân tích hình ảnh. Sự thay đổi mô hình này cho phép các mô hình mở rộng một cách dễ dự đoán hơn, tận dụng các tài nguyên tính toán tăng lên để tạo ra các đầu ra ngày càng chân thực và mạch lạc hơn.

Phân biệt giữa DiT và các mô hình khuếch tán truyền thống

Mặc dù các mô hình khuếch tán truyền thống là nền tảng của Trí tuệ nhân tạo tạo sinh hiện đại, nhưng kiến ​​trúc U-Net của chúng thường gặp phải nút thắt cổ chai khi mở rộng quy mô lên số lượng tham số khổng lồ. Ngược lại, Mô hình Biến đổi Khuếch tán (Diffusion Transformer - DiT) kế thừa một cách tự nhiên các quy luật mở rộng được quan sát thấy trong các Mô hình Ngôn ngữ Lớn (Large Language Models - LLMs) . Bằng cách loại bỏ các sai lệch do lấy mẫu giảm không gian và sử dụng các cơ chế tự chú ý toàn cục, DiT học được các mối quan hệ không gian phức tạp trên toàn bộ hình ảnh hoặc khung hình video. Để tìm hiểu sâu hơn về nguồn gốc của hành vi mở rộng này, bạn có thể xem lại bài báo nghiên cứu gốc về DiT được xuất bản trên arXiv , bài báo đã thiết lập các tiêu chuẩn hiệu quả này.

Các Ứng dụng Thực tế

Tính linh hoạt và khả năng mở rộng của bộ biến đổi khuếch tán đã tạo ra những đột phá đáng kể trong nhiều lĩnh vực thị giác máy tính :

  1. Tạo video độ chân thực cao: Ứng dụng nổi bật nhất của kiến ​​trúc DiT được tìm thấy trong các mô hình chuyển đổi văn bản thành video, chẳng hạn như mô hình Sora của OpenAI . Bằng cách hiểu tính nhất quán về thời gian và không gian 3D, DiT có thể tổng hợp các đoạn video dài một phút, siêu thực, duy trì logic vật lý từng khung hình, cách mạng hóa việc tạo nội dung kỹ thuật số và hiệu ứng hình ảnh.
  2. Tổng hợp hình ảnh nâng cao: Trong thiết kế thương mại và tạo hình ảnh bằng trí tuệ nhân tạo , DiTs cung cấp độ chính xác chưa từng có trong việc chuyển đổi văn bản thành hình ảnh. Chúng được các công ty sáng tạo sử dụng để tạo ra các tài sản tiếp thị có độ chính xác cao, thể hiện các yêu cầu phức tạp với kiểu chữ chính xác và tính chân thực về bố cục mà các mô hình U-Net trước đây khó đạt được.

Áp dụng các khái niệm về máy biến áp

Mặc dù DiT chủ yếu được sử dụng cho các tác vụ tạo sinh phức tạp, bạn vẫn có thể khám phá các cơ chế tự chú ý cơ bản mà chúng dựa vào bằng cách sử dụng các thư viện học sâu tiêu chuẩn. Sau đây là các ví dụ: Python Đoạn mã này sử dụng PyTorch để minh họa cách các mảng ảnh đã được làm phẳng được xử lý thông qua lớp transformer, một thao tác cốt lõi trong mạng DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Để có thông tin chi tiết kỹ thuật toàn diện về các lớp chú ý, tài liệu PyTorch về các mô-đun Transformer là một điểm khởi đầu tuyệt vời.

Kết nối giữa quá trình tạo ra và phát hiện

Mô hình Transformer khuếch tán (Diffusion Transformer) đại diện cho công nghệ tiên tiến nhất trong việc tạo nội dung, nhưng nhiều quy trình làm việc của doanh nghiệp yêu cầu phân tích hình ảnh theo thời gian thực thay vì tổng hợp. Đối với các tác vụ đòi hỏi suy luận tốc độ cao, chẳng hạn như phát hiện đối tượngphân đoạn hình ảnh , các mô hình tối ưu hóa cạnh nhẹ vẫn là tiêu chuẩn của ngành.

Ultralytics YOLO26 được thiết kế chính xác cho các tác vụ thị giác máy tính phân tích này. Nó mang lại tốc độ và độ chính xác vượt trội ngay từ khi cài đặt, tránh được gánh nặng tính toán lớn cần thiết cho các mô hình tạo sinh khổng lồ. Để chuyển đổi dễ dàng từ việc tạo tập dữ liệu sang triển khai cấp doanh nghiệp, các nhà phát triển dựa vào Nền tảng Ultralytics , một giải pháp toàn diện để quản lý các quy trình AI hình ảnh mạnh mẽ. Để có cái nhìn tổng quan hơn về sự so sánh giữa các mô hình tạo sinh và mô hình phân tích, Khóa học cấp tốc về Học máy của Google cung cấp bối cảnh nền tảng tuyệt vời.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay