Yolo 深圳
深セン
今すぐ参加
用語集

拡散モデル

Diffusionモデルが、比類なき詳細さと安定性でリアルな画像、動画、データを作成し、生成AIに革命をもたらす様子をご覧ください。

拡散モデルは 生成的AIアルゴリズムの一種で を学習する生成AIアルゴリズムの一種である。非平衡 このモデルは、非平衡熱力学の原理から着想を得ている。 高忠実度の画像、音声、動画を生成するための最先端技術として登場した。従来の方法とは異なり 拡散モデルは、複雑な出力を一度に生成しようとする従来の手法とは異なり、ランダムな静的要素を反復的に洗練させ、一貫性のあるコンテンツに変換する。 コンテンツに繰り返し改良することで、コンピュータビジョンタスクにおけるディテールと意味構造をかつてないほど制御できるようになりました。 コンピュータビジョンタスクにおけるディテールと意味構造のかつてない制御を可能にする。

拡散のメカニズム

拡散モデルの動作は、2つの異なるフェーズに分けることができる。 プロセスである。

  1. 前方プロセス(拡散):この段階では、データの構造を体系的に破壊する。 学習データから鮮明な画像から始める、 モデルは一連の時間ステップにわたって少量のガウスノイズを加える。 一連の時間ステップ。最終的に、データは純粋な、構造化されていないランダムノイズへと劣化する。このプロセスは通常 固定され、マルコフ連鎖則に従う。
  2. 逆プロセス(ノイズ除去):核となる 機械学習タスクはこの段階にある。A ニューラル・ネットワーク(多くの場合U-Netアーキテクチャ)。 各ステップで追加されるノイズを予測し、減算するように学習される。腐敗を逆に学習することで、モデルは以下のことが可能になる。 純粋なノイズから始まり、それを徐々に「ノイズ除去」することで、真新しく首尾一貫した画像を幻視することができる。

基礎となる DDPM(Denoising Diffusion Probabilistic Models)論文のような研究は、この反復改良を安定的に効果的にする数学的枠組みを確立した。 数学的なフレームワークを確立した。

拡散とGANの比較

拡散モデルが脚光を浴びる前 生成的逆数ネットワーク(GAN) が画像合成の主流だった。どちらも強力ではあるが、根本的に異なる:

  • トレーニングの安定性:拡散モデルは一般に訓練が容易である。GANは2つのネットワーク GANは2つのネットワーク(ジェネレーターとディスクリミネーター)間の敵対的なゲームに依存しており、しばしばモード崩壊や不安定性を引き起こす。 拡散は、ノイズ予測に関連したより安定した損失関数 を使用する。
  • アウトプットの多様性:拡散モデルは、多様で非常に詳細なサンプルを生成することに優れている。 GANはデータセットの分布全体をカバーするのに苦労することがある。
  • 推論速度:GANはシングルパスで画像を生成するため、トレードオフが存在する。 より速い。拡散モデルは画像を精緻化するために複数のステップを必要とするため、推論の待ち時間が長くなる。 推論の待ち時間が長くなる。しかし、潜在拡散 で使用されている)潜在拡散のような新しい技術は 安定拡散で使用される)のような新しい技法は、圧縮された潜在空間で処理を実行する。 圧縮された潜在空間で処理を実行することで コンシューマー向けGPUでの速度を大幅に向上させます。

実際のアプリケーション

拡散モデルの多用途性は、さまざまな業界に広がり、創造性とエンジニアリングのワークフローを強化するツールを提供します。 エンジニアリングワークフローを強化するツールを提供します。

  • 合成データの生成:ラベル付けされた実世界のデータを入手することは、高価であったり、プライバシーに敏感であったりする。 拡散モデルは、膨大な量の現実的な合成データ ロバストな物体検出モデルを オブジェクト検出モデルを学習することができる。例えば を学習させるために、何千もの合成画像を生成することができる。 YOLO11を学習させることができる。
  • 忠実度の高い映像制作: DALL-E 3』のようなツール ミッドジャーニー Adobe Fireflyなどのツールは、ディフュージョンを活用してテキストプロンプトを プロ級のアートワークとアセットに変えます。
  • 医療画像医療分野では、拡散モデルは、超解像を支援し、高品質の画像再構成を行います。 超解像 MRIやCTスキャンを低解像度の入力から再構成し、正確な医用画像解析を支援します。 医療画像解析を支援します。
  • ビデオとオーディオの合成:このコンセプトは、静止画像だけでなく、時間的データにも拡張される。例えば OpenAIのSoraや Runway MLによるツールは、拡散の原理を適用して、コヒーレントなビデオシーケンスとリアルなサウンドスケープを生成する。 リアルなサウンドスケープを生成する。

前進プロセスの実施

拡散モデルがトレーニングのためにどのようにデータを準備するかを理解するためには、フォワードプロセスを視覚化することが役に立つ。以下は 次の PyTorchのコードスニペットは、ガウスノイズがどのようにテンソルに追加されるかを示しています。 ノイズがどのようにtensor追加されるかを示しています。

import torch


def add_gaussian_noise(image_tensor, noise_level=0.1):
    """Simulates one step of the forward diffusion process by adding noise.

    Args:
        image_tensor (torch.Tensor): Input image tensor.
        noise_level (float): Standard deviation of the noise.
    """
    noise = torch.randn_like(image_tensor) * noise_level
    noisy_image = image_tensor + noise
    return noisy_image


# Create a dummy tensor representing a 640x640 image
clean_img = torch.zeros(1, 3, 640, 640)
noisy_output = add_gaussian_noise(clean_img, noise_level=0.2)

print(f"Output shape: {noisy_output.shape} | Noise added successfully.")

このプロセスを逆転させることで、モデルはノイズからシグナルを回復することを学習し、下流のタスクでデータセットを補強するために使用できる複雑なビジュアルの生成を可能にする。 画像セグメンテーションや分類のような下流のタスクのためのデータセットを補強するために使用できる。 画像セグメンテーションや分類のような

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加