Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Diffusion Transformer (DiT)

Khám phá cách Diffusion Transformers (DiT) kết hợp các transformer với mô hình khuếch tán để tổng hợp dữ liệu có độ trung thực cao. Tìm hiểu về khả năng mở rộng, Sora và Ultralytics YOLO26.

Diffusion Transformer (DiT) là một kiến trúc tạo sinh tiên tiến kết hợp sức mạnh xử lý tuần tự của transformers với khả năng tổng hợp hình ảnh có độ trung thực cao của diffusion models. Theo truyền thống, các hệ thống dựa trên khuếch tán phụ thuộc rất nhiều vào kiến trúc U-Net tích chập để khử nhiễu đầu vào và tạo hình ảnh theo phương pháp lặp. DiT thay thế xương sống U-Net này bằng một kiến trúc transformer có khả năng mở rộng, xử lý dữ liệu hình ảnh như một chuỗi các bản vá (patch), tương tự như cách Vision Transformer (ViT) phân tích hình ảnh. Sự thay đổi mô hình này cho phép các model mở rộng quy mô một cách dự đoán được, tận dụng tối đa tài nguyên tính toán để tạo ra các đầu ra chân thực và nhất quán hơn.

Link to this sectionPhân biệt DiT và các mô hình khuếch tán truyền thống#

Trong khi các mô hình khuếch tán truyền thống là nền tảng cho Generative AI hiện đại, các xương sống U-Net của chúng thường gặp phải điểm nghẽn khi mở rộng quy mô đến số lượng tham số khổng lồ. Ngược lại, Diffusion Transformers kế thừa tự nhiên các quy luật mở rộng đã thấy trong Large Language Models (LLMs). Bằng cách loại bỏ các thiên kiến lấy mẫu xuống không gian (spatial downsampling biases) và sử dụng cơ chế global self-attention, DiT học được các mối quan hệ không gian phức tạp trên toàn bộ hình ảnh hoặc khung hình video. Để tìm hiểu sâu hơn về nguồn gốc của hành vi mở rộng này, bạn có thể xem lại bài báo nghiên cứu DiT gốc được xuất bản trên arXiv, nơi đã thiết lập các chuẩn mực hiệu suất này.

Link to this sectionCác ứng dụng thực tế#

Sự linh hoạt và khả năng mở rộng của Diffusion Transformers đã tạo ra những bước đột phá đáng kể trong nhiều lĩnh vực computer vision:

  1. Tạo video có độ trung thực cao: Ứng dụng nổi bật nhất của kiến trúc DiT nằm trong các model text-to-video, chẳng hạn như mô hình Sora của OpenAI. Bằng cách hiểu sự nhất quán về thời gian và không gian 3D, DiT có thể tổng hợp các clip video chân thực từng phút một, duy trì tính logic vật lý theo từng khung hình, tạo nên cuộc cách mạng trong sáng tạo nội dung kỹ thuật số và hiệu ứng hình ảnh.

  2. Tổng hợp hình ảnh nâng cao: Trong thiết kế thương mại và tạo nghệ thuật bằng artificial intelligence, DiT cung cấp độ trung thực text-to-image chưa từng có. Chúng được các công ty sáng tạo sử dụng để tạo ra các tài sản tiếp thị có độ chính xác cao, dựng các prompt phức tạp với kiểu chữ chính xác và tính hiện thực về bố cục mà các model U-Net trước đây khó đạt được.

Link to this sectionTriển khai các khái niệm Transformer#

Mặc dù DiT chủ yếu được sử dụng cho các tác vụ tạo sinh nặng, bạn có thể khám phá các cơ chế self-attention nền tảng mà chúng dựa vào bằng cách sử dụng các thư viện deep learning tiêu chuẩn. Đoạn mã Python sau đây sử dụng PyTorch để minh họa cách các bản vá hình ảnh phẳng được xử lý thông qua một layer transformer, một thao tác cốt lõi trong mạng DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Để biết chi tiết kỹ thuật toàn diện về các layer attention, tài liệu PyTorch về các mô-đun Transformer cung cấp một điểm khởi đầu tuyệt vời.

Link to this sectionKết nối giữa tạo sinh và phát hiện#

Diffusion Transformers đại diện cho công nghệ tiên tiến nhất trong tạo nội dung, nhưng nhiều quy trình công nghiệp yêu cầu phân tích hình ảnh theo thời gian thực thay vì tổng hợp. Đối với các tác vụ yêu cầu suy luận tốc độ cao, chẳng hạn như object detectionimage segmentation, các model nhẹ được tối ưu hóa cho thiết bị biên (edge-optimized) vẫn là tiêu chuẩn của ngành.

Ultralytics YOLO26 được thiết kế chính xác cho các computer vision tasks phân tích này. Nó mang lại tốc độ và độ chính xác chưa từng có ngay khi sử dụng, tránh được chi phí tính toán nặng nề cần thiết bởi các generative transformer khổng lồ. Để dễ dàng chuyển đổi từ việc tạo tập dữ liệu sang triển khai ở quy mô doanh nghiệp, các nhà phát triển dựa vào Ultralytics Platform, một giải pháp toàn diện để quản lý các đường ống AI thị giác mạnh mẽ. Để có góc nhìn rộng hơn về cách so sánh các mô hình tạo sinh và mô hình phân tích, Khóa học Machine Learning của Google cung cấp bối cảnh nền tảng tuyệt vời.

Explore solutions

Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang thị giác máy tính AI vào nông nghiệp thông minh với các model Ultralytics YOLO. Thúc đẩy giám sát cây trồng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn và thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your operation

AI trong ngành ô tô

Ứng dụng thị giác máy tính trong ngành ô tô với các model Ultralytics YOLO. AI thị giác giúp nâng cao an toàn giao thông, hỗ trợ người lái và tự động hóa phương tiện để có những con đường thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp chăm sóc sức khỏe với các model Ultralytics YOLO. AI thị giác trong chăm sóc sức khỏe giúp tăng tốc chẩn đoán hình ảnh y tế, chẩn đoán thông minh hơn và theo dõi bệnh nhân tốt hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Bán lẻ

Tái định hình ngành bán lẻ với các model Ultralytics YOLO. Vision AI hỗ trợ theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và cung cấp thông tin chuyên sâu về khách hàng một cách thông minh hơn.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Cung cấp sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong ngành robot thúc đẩy điều hướng tự động, nhận diện, theo dõi đối tượng và điều khiển thời gian thực.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Sản xuất

Tối ưu hóa quy trình sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.

Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra kiện hàng, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi theo thời gian thực.

Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning