YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Diffusion Transformer (DiT)

Diffusion Transformers (DiT) がどのようにTransformerと拡散モデルを統合して高忠実度の合成を実現するか解説します。スケーリング、Sora、およびUltralytics YOLO26について学びましょう。

Diffusion Transformer (DiT) は、transformers のシーケンシャルな処理能力と、diffusion models の高忠実度な画像合成機能を融合させた高度な生成アーキテクチャです。従来、拡散ベースのシステムは、入力のノイズを除去して画像を生成するために、主に畳み込み U-Net アーキテクチャに依存していました。DiT はこの U-Net バックボーンをスケーラブルな Transformer アーキテクチャに置き換え、Vision Transformer (ViT) が画像を分析するのと同様に、視覚データをパッチのシーケンスとして扱います。このパラダイムシフトにより、モデルのスケーリングがより予測可能となり、計算リソースを活用して、より写実的で一貫性のある出力を生成できるようになりました。

Link to this sectionDiT と従来の拡散モデルの違い#

従来の拡散モデルは現代の Generative AI の基盤となっていますが、その U-Net バックボーンは、パラメータ数を大幅に増加させてスケーリングする際にボトルネックに直面することがよくあります。対照的に、Diffusion Transformer は Large Language Models (LLMs) で観察されるスケーリング則を本質的に継承しています。空間ダウンサンプリングのバイアスを排除し、グローバルな self-attention メカニズムを利用することで、DiT は画像や動画フレーム全体にわたる複雑な空間関係を学習します。このスケーリング動作の起源についてさらに詳しく知りたい場合は、これらの効率性のベンチマークを確立した arXiv で公開されているオリジナルの DiT 研究論文 を参照してください。

Link to this section実社会での応用#

Diffusion Transformer の柔軟性とスケーラビリティは、さまざまな computer vision 分野で大きな飛躍をもたらしています。

  1. 高忠実度動画生成: DiT アーキテクチャの最も顕著な応用例は、OpenAI's Sora model のようなテキストから動画を生成するモデルに見られます。時間的一貫性と 3D 空間を理解することで、DiT はフレームごとに物理的な論理を維持したまま、1 分間の超現実的な動画クリップを合成でき、デジタルコンテンツ制作と視覚効果に革命をもたらしています。

  2. 高度な画像合成: 商用デザインや artificial intelligence アート生成において、DiT はこれまでにないテキストから画像への高い忠実度を提供します。クリエイティブエージェンシーはこれを利用して、精度の高いマーケティング資産を生成しており、以前の U-Net モデルでは実現が難しかった、正確なタイポグラフィと構成上のリアリズムを備えた複雑なプロンプトをレンダリングしています。

Link to this sectionTransformer の概念の実装#

DiT は主に大規模な生成タスクに使用されますが、標準的な deep learning ライブラリを使用して、それらが依存する基本的な self-attention メカニズムを探求することができます。以下の Python スニペットでは PyTorch を使用して、DiT ネットワークの核となる操作である、平坦化された画像パッチが Transformer レイヤーを通じてどのように処理されるかを示しています。

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Attention レイヤーに関する詳細な技術情報は、PyTorch documentation on Transformer modules が優れた出発点となります。

Link to this section生成と検出の橋渡し#

Diffusion Transformer はコンテンツ生成の最先端を行くものですが、多くの企業ワークフローでは、合成ではなくリアルタイムの視覚分析が求められます。高速な推論が求められる object detectionimage segmentation といったタスクでは、軽量でエッジ最適化されたモデルが引き続き業界標準となっています。

Ultralytics YOLO26 は、まさにこれらの分析的な computer vision tasks のために設計されています。これは、大規模な生成 Transformer に必要な膨大な計算オーバーヘッドを回避し、すぐに利用可能な比類のない速度と精度を提供します。データセットの作成から企業レベルのデプロイメントへ円滑に移行するために、開発者は堅牢な視覚 AI パイプラインを管理するためのエンドツーエンドのソリューションである Ultralytics Platform を活用しています。生成モデルと分析モデルの比較に関するより広範な視点については、Google's Machine Learning Crash Course が優れた基礎的背景を提供しています。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう