Yolo 深圳
深セン
今すぐ参加
用語集

潜在拡散モデル(LDM)

潜在拡散モデル(LDM)が、いかに効率的に高品質な合成データを生成するかをご紹介します。Ultralytics 、LDMの出力を検証する方法をご確認ください。

潜在拡散モデル(LDM)は、 高い計算効率で高品質な 画像、動画、または音声を合成するように設計された、高度な 生成AIの一種です。高次元のピクセルデータを直接処理する従来のモデルとは異なり、 LDMは入力データを「潜在空間」と呼ばれる低次元の表現に圧縮します。 構造化された 出力を生成するためにノイズを反復的に付加・除去する中核となる拡散プロセスは、この圧縮された空間内で完全に実行されます。生成モデリングを高解像度の ピクセル空間から切り離すことで、LDMはディープラーニングタスクに必要な メモリと計算能力を大幅に削減し、 一般消費者向けのハードウェア上で高度な生成ワークフローを実行することを可能にします。

関連用語の区別

LDMのアーキテクチャを理解するには、密接に関連する コンピュータビジョンや生成学習の概念と比較検討することが役立ちます:

  • 拡散モデルとLDMの比較 標準的な拡散モデルは、生のピクセルデータに対して直接、フォワードおよびリバースノイズ処理を実行します。 この手法は精度が高い反面、計算負荷が高くなります。LDMは、オートエンコーダーを用いて画像を より小さな潜在空間に写像し、そこで拡散処理を行い、その結果をピクセルデータとして復元することで、この問題を解決します。
  • Stable Diffusion対 LDM: Stable Diffusion は、潜在拡散モデル(Latent Diffusion Model)の特定の実装形態であり、広く採用されています。つまり、 すべての Stable Diffusion モデルは LDM ですが、すべての LDM が Stable Diffusion であるわけではありません。

実際のアプリケーション

LDMの効率性により、研究や産業界において数多くの実用的な応用が可能となり、その多くは arXivに掲載された基礎的な学術論文で報告され、Google などの組織によって 研究が進められている。

  • 合成データの生成 エンジニアは、特定の気象条件や製造工程における稀な欠陥など、 発生頻度の低いエッジケースについて、多様で高精細な合成画像を生成するために、LDMを頻繁に利用しています。この合成データは、 物体検出モデルの堅牢なトレーニングに活用され、 手動によるデータ収集にかかる時間を短縮します。
  • 高度な画像編集とインペインティング:LDMは、テキストプロンプトに基づいて既存の画像を加工することに優れています。 クリエイティブ業界では、これらのモデルを活用して、複雑な照明や質感を維持したまま、背景をシームレスに置き換えたり、欠落した画像部分を補完したり (インペインティング)、あるいはキャンバスの境界を拡張したり(アウトペインティング)しています。

YOLO26 を使用した LDM 出力の検証

機械学習用の合成データセットを生成するためにLDMを使用する場合、生成された オブジェクトが正しい意味的特徴を備えていることを確認することが極めて重要です。以下のような判別モデルを使用して、これらの生成画像に対して推論を実行することができます。 Ultralytics YOLO のような判別モデルを使用して推論を実行し、品質を確保することができます。

from ultralytics import YOLO

# Load the lightweight YOLO26 Nano model for rapid validation
model = YOLO("yolo26n.pt")

# Analyze a synthetic image generated by a Latent Diffusion Model
results = model.predict("ldm_synthetic_dataset_sample.jpg")

# Display the bounding box results to verify object fidelity
results[0].show()

潜在アーキテクチャの今後の展開

人工知能の分野が 成熟するにつれ、 LDMの基盤となる仕組みは、より複雑なモダリティに対応できるよう適応が進められています。以下のような研究グループの研究者たちは AnthropicやOpenAIなどの研究グループは、 高精細動画の生成や3D環境の合成に向けた潜在拡散(Latent Diffusion)の研究を進めています。

同時に、次のようなライブラリによって支えられた、コアtensor の進歩により PyTorchTensorFlowといったライブラリによって支えられたコアなテンソル演算の進歩が、これらの モデルの高速化をさらに加速させ続けています。これらの 埋め込みや合成データセットを本番環境の パイプラインに統合しようとしているAI実務者にとって、Ultralytics モデル展開のためのシームレスな環境を提供し、 チームが生成されたデータから完全に展開されたビジョンソリューションへと シームレスに移行することを可能にします。

一緒にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。