遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Diffusion Transformer (DiT)

了解 Diffusion Transformer (DiT) 如何将 transformer 与扩散模型结合,以实现高保真合成。学习有关扩展、Sora 和 Ultralytics YOLO26 的知识。

Diffusion Transformer (DiT) 是一种先进的生成式架构,它将 transformers 的序列处理能力与 diffusion models 的高保真图像合成能力相结合。传统上,基于扩散的系统非常依赖卷积 U-Net 架构来迭代去噪输入并生成图像。DiTs 用可扩展的 transformer 架构取代了这种 U-Net 主干,将视觉数据视为补丁序列,类似于 Vision Transformer (ViT) 分析图像的方式。这种范式转换使模型能够更可预测地进行扩展,利用增加的计算资源来产生更具照片真实感和连贯性的输出。

Link to this section区分 DiT 与传统扩散模型#

虽然传统扩散模型是现代 Generative AI 的基础,但它们的 U-Net 主干在扩展到海量参数时常面临瓶颈。相比之下,Diffusion Transformers 原生地继承了在 Large Language Models (LLMs) 中观察到的扩展定律。通过消除空间下采样偏差并利用全局自注意力机制,DiT 可以学习整个图像或视频帧中的复杂空间关系。要深入了解这种扩展行为的起源,你可以查阅 发布在 arXiv 上的原始 DiT 研究论文,该论文确立了这些效率基准。

Link to this section实际应用#

Diffusion Transformers 的灵活性和可扩展性在各个 computer vision 领域引发了重大突破:

  1. 高保真视频生成: DiT 架构最突出的应用体现在文生视频模型中,例如 OpenAI 的 Sora 模型。通过理解时间一致性和 3D 空间,DiTs 能够合成逐帧保持物理逻辑的长达一分钟的超逼真视频片段,彻底改变了数字内容创作和视觉特效。

  2. 高级图像合成: 在商业设计和 artificial intelligence 艺术生成中,DiTs 提供了前所未有的文生图保真度。它们被创意机构用于生成高度准确的营销素材,渲染出具有准确排版和组合真实感的复杂提示词,而这是早期的 U-Net 模型难以实现的。

Link to this section实现 Transformer 概念#

虽然 DiTs 主要用于繁重的生成任务,但你可以使用标准 deep learning 库来探索它们所依赖的基础自注意力机制。以下 Python 代码片段展示了如何使用 PyTorch 通过 transformer 层处理扁平化图像补丁,这是 DiT 网络中的核心操作。

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

关于注意力层的全面技术细节,PyTorch 关于 Transformer 模块的文档 提供了一个极佳的起点。

Link to this section连接生成与检测#

Diffusion Transformers 代表了内容生成的前沿,但许多企业工作流程需要的是实时视觉分析而非合成。对于需要高速推理的任务,例如 object detectionimage segmentation,轻量级、针对边缘设备优化的模型仍然是行业标准。

Ultralytics YOLO26 正是为这些分析型 computer vision tasks 而设计的。它开箱即用地提供了无与伦比的速度和准确性,避免了庞大的生成式 transformers 所需的沉重计算开销。为了轻松实现从数据集创建到企业级部署的过渡,开发者们依赖 Ultralytics Platform,这是一个用于管理健壮视觉 AI 流水线的端到端解决方案。想要更全面地了解生成模型与分析模型之间的比较,Google 的机器学习速成课程 提供了极好的基础背景。

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 引入智慧农业。为农作物监测、牲畜追踪和精准农业提供支持,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型将计算机视觉应用于汽车领域。视觉 AI 能提升道路安全、驾驶辅助和车辆自动化水平,从而打造更智能的道路。

了解详情
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗解决方案。医疗保健中的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监护。

了解详情
Real-time AI that works with your team

零售业中的AI

利用Ultralytics YOLO模型重塑零售业。视觉AI助力库存追踪、货架监控、排队管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型为更智能的机器提供动力。机器人领域的视觉 AI 可驱动自主导航、感知、物体跟踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造业。视觉 AI 助力质量控制、缺陷检测、PPE 合规性监控以及装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

利用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分类、车辆追踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅