ヨロビジョン深圳
深セン
今すぐ参加
用語集

拡散モデル

Diffusionモデルが、比類なき詳細さと安定性でリアルな画像、動画、データを作成し、生成AIに革命をもたらす様子をご覧ください。

拡散モデルは、現代の生成AIの基礎となっている生成モデルの一種です。これらは、トレーニングされたデータに類似した画像やサウンドなどの新しいデータを作成するように設計されています。コアとなるアイデアは、熱力学に触発されています。モデルは、画像にノイズが加わるプロセスを徐々に反転させ、完全に静的になるまで学習します。この「ノイズ除去」プロセスを学習することで、モデルはランダムなノイズから開始し、それを徐々に洗練して、一貫性のある高品質のサンプルにすることができます。この段階的な洗練プロセスは、非常に詳細でリアルな出力を生成する能力の鍵となります。

拡散モデルの仕組み

拡散モデルの背後にあるプロセスには、主に2つの段階があります。

  1. 順方向プロセス(拡散): この段階では、クリアな画像に、多数のステップにわたって少量のガウスノイズを体系的に加えることで、徐々に劣化させていきます。この処理は、画像が純粋なノイズと区別できなくなるまで続けられます。この順方向プロセスは固定されており、学習は一切行われません。モデルが反転を学習するためのターゲットを提供するだけです。
  2. 逆プロセス(ノイズ除去): ここで学習が行われます。ニューラルネットワークは、順方向プロセスからのノイズの多い画像を受け取り、前のステップで追加されたノイズを予測するように学習されます。この予測されたノイズを繰り返し差し引くことで、モデルは完全にランダムな画像(純粋なノイズ)から開始し、徐々にクリーンでクリアな画像に変換できます。この学習されたノイズ除去プロセスにより、モデルはゼロから新しいデータを生成できます。基礎論文である「Denoising Diffusion Probabilistic Models」は、このアプローチの基礎を築きました。

拡散モデルと他の生成モデルとの比較

拡散モデルは、敵対的生成ネットワーク(GAN)のような他の一般的な生成アプローチとは大きく異なります。

  • トレーニングの安定性: 拡散モデルは通常、GANと比較して、より安定したトレーニングプロセスを持っています。GANは、ジェネレータとディスクリミネータ間の複雑な敵対的ゲームを含み、バランスを取ることが難しい場合があり、収束に失敗する可能性があります。
  • サンプル品質と多様性: どちらも高品質の結果を生み出すことができますが、拡散モデルは多くの場合、非常に多様でフォトリアリスティックな画像を生成することに優れており、特定のベンチマークではGANを上回ることもあります。ただし、この品質は、より高い推論レイテンシを伴う可能性があります。
  • 推論速度:従来、拡散モデルは、多くの反復的なノイズ除去ステップを必要とするため、サンプルの生成が遅くなります。対照的に、GANは単一のフォワードパスでサンプルを生成できます。ただし、活発な研究と知識蒸留のような技術により、この速度差は急速に縮まっています。

実際のアプリケーション

拡散モデルは、さまざまな分野で創造性と革新の新しい波を推進しています。

  • 高忠実度画像生成: これは最もよく知られているアプリケーションです。Stability AIOpenAIなどの企業が開発したモデルは、簡単なテキストプロンプトから驚くほどリアルで芸術的な画像を生成できます。代表的な例としては、Stable DiffusionDALL-E 3Midjourney、GoogleのImagenなどがあります。これらのツールは、デジタルアートとコンテンツ制作を変革しました。
  • 画像編集とインペインティング: これらは、画像をゼロから作成するためだけのものではありません。拡散モデルは、オブジェクトの追加または削除、芸術的なスタイルの変更、写真の欠落部分の塗りつぶし(インペインティング)など、指示に基づいて既存の画像をインテリジェントに変更できます。Adobe Fireflyのようなツールは、これらの機能を活用しています。
  • オーディオおよびビデオ合成: 拡散の原理は、他のデータ型にも適用されます。AudioLDMのようなモデルは、リアルな音声、音楽、効果音を生成でき、OpenAIのSoraのようなモデルは、テキストからビデオ生成の限界を押し広げています。
  • データ拡張: コンピュータビジョンでは、拡散モデルを使用して合成トレーニングデータを生成できます。これは、特に実世界のデータが不足している場合に、Ultralytics YOLOなどのモデルの物体検出画像セグメンテーションなどのタスクのロバスト性を向上させるのに役立ちます。

ツールと開発

拡散モデルの開発と利用には通常、PyTorchTensorFlowのような機械学習フレームワークが用いられます。開発を容易にするために、Hugging Face Diffusersライブラリのようなライブラリは、事前学習済みのモデルやツールを提供しています。これらのツールは生成モデル自体に焦点を当てていますが、Ultralytics HUBのようなプラットフォームは、包括的なAIソリューションの開発を補完し、データセット管理やデプロイメントを含む、より広範なワークフローの管理を支援します。これらのモデルが普及するにつれて、AI倫理を考慮し、アルゴリズムバイアスのような課題に対処することが重要です。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました