YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Diffusion Transformer (DiT)

Diffusion Transformer (DiT) がどのようにトランスフォーマーと拡散モデルを融合し、高忠実度の合成を実現するかを解説します。スケーリング、Sora、そしてUltralytics YOLO26について学びましょう。

Diffusion Transformer (DiT) は、transformers の順次処理能力とdiffusion models の高忠実度画像合成機能を融合させた高度な生成アーキテクチャです。従来の拡散ベースのシステムは、畳み込みU-Netアーキテクチャに大きく依存し、入力を反復的にノイズ除去することで画像を生成していました。DiTは、このU-Netのバックボーンをスケーラブルなトランスフォーマーアーキテクチャに置き換え、Vision Transformer (ViT) が画像を分析するのと同様に、視覚データをパッチのシーケンスとして処理します。このパラダイムシフトにより、モデルは計算リソースの増加を活かしてより予測可能にスケールし、よりフォトリアリスティックで一貫性のある出力を生成できるようになりました。

Link to this sectionDiTと従来の拡散モデルの違い#

従来の拡散モデルは現代のGenerative AIの基盤となっていますが、そのU-Netバックボーンは大規模なパラメータ数にスケールアップする際にボトルネックに直面することがよくあります。対照的に、Diffusion TransformerはLarge Language Models (LLMs) で観察されるスケーリング則をネイティブに継承しています。空間ダウンサンプリングのバイアスを排除し、グローバルな自己注意(セルフアテンション)メカニズムを利用することで、DiTは画像やビデオフレーム全体の複雑な空間関係を学習します。このスケーリング動作の起源を深く掘り下げるには、これらの効率性のベンチマークを確立したarXivで公開されているオリジナルのDiT研究論文を参照してください。

Link to this section実際の応用例#

Diffusion Transformerの柔軟性とスケーラビリティは、様々なcomputer vision分野において重要なブレイクスルーをもたらしています。

  1. 高忠実度ビデオ生成: DiTアーキテクチャの最も著名な応用例は、OpenAIのSoraモデルのようなテキストからビデオを生成するモデルに見られます。時間的一貫性と3D空間を理解することで、DiTはフレームごとに物理的論理を維持した1分間の超リアルなビデオクリップを合成し、デジタルコンテンツ制作や視覚効果に革命をもたらしています。

  2. 高度な画像合成: 商業デザインやartificial intelligenceによるアート生成において、DiTは前例のないテキストから画像への忠実度を提供します。これらは、クリエイティブエージェンシーが正確なタイポグラフィと構成のリアリズムを備えた複雑なプロンプトをレンダリングし、高精度なマーケティング資産を生成するために利用されており、初期のU-Netモデルでは実現が困難だった成果を上げています。

Link to this sectionトランスフォーマー概念の実装#

DiTは主に大規模な生成タスクに使用されますが、それらが依存する基礎的な自己注意メカニズムは、標準的なdeep learningライブラリを使用して探索できます。以下のPythonスニペットは、PyTorchを使用して、平坦化された画像パッチがどのようにトランスフォーマー層(DiTネットワークの核となる操作)を通過して処理されるかを示しています。

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

アテンション層に関する包括的な技術詳細については、PyTorchのTransformerモジュールに関するドキュメントが優れた出発点となります。

Link to this section生成と検出の橋渡し#

Diffusion Transformerはコンテンツ生成の最先端を代表するものですが、多くのエンタープライズワークフローでは合成ではなくリアルタイムの視覚分析が求められます。 object detectionimage segmentation のような高速な推論が求められるタスクでは、エッジ向けに最適化された軽量モデルが依然として業界標準です。

Ultralytics YOLO26 は、まさにこうした分析的なcomputer vision tasksのために設計されています。大規模な生成トランスフォーマーが必要とする多大な計算オーバーヘッドを回避し、導入時からネイティブに比類のない速度と精度を提供します。データセットの作成からエンタープライズグレードのデプロイメントへスムーズに移行するため、開発者は堅牢な視覚AIパイプラインを管理するためのエンドツーエンドソリューションであるUltralytics Platformを活用しています。生成モデルと分析モデルの比較に関するより広い視点を得るには、GoogleのMachine Learning Crash Courseが優れた基礎知識を提供しています。

Explore solutions

Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう