Yolo 深圳
深セン
今すぐ参加
用語集

Stable Diffusion

テキストプロンプトからリアルな画像を生成し、創造性と効率性を革新する最先端のAIモデルであるStable Diffusionをご覧ください。

Stable Diffusionは、著名なオープンソースの生成AIモデルです。 生成AIモデルである。 として知られるプロセスである。 として知られるプロセスである。リリース元 Stability AIによって発表されたこのディープラーニング・アーキテクチャは を搭載したコンシューマーグレードのハードウェアで実行できるほど効率的である。 GPU.クラウドサービス経由でしかアクセスできない クラウド・サービス経由でしかアクセスできないプロプライエタリなモデルとは異なり、Stable Diffusionはオープンに利用できるため、研究者や開発者は 研究者や開発者は、そのコードを検査し、その重みを変更し、芸術的ツールから合成データパイプラインに至るまで、カスタムアプリケーションを構築することができる。 合成データパイプライン

Stable Diffusionはどのように機能するか

安定拡散の核心は、拡散モデルの一種である。 拡散モデルの一種で、具体的には潜在拡散モデル モデル(LDM)である。このプロセスは熱力学からヒントを得ており、徐々に劣化していくプロセスを逆転させるための学習が含まれる。 劣化である。

  1. 前方拡散:システムは鮮明なトレーニング画像から開始し、画像がランダムな静止画像になるまでガウスノイズを段階的に追加する。 ガウシアンノイズを追加していく。
  2. 逆拡散:A ニューラル・ネットワーク(通常はU-Net)が学習される。 を学習し、このノイズを段階的に予測・除去して元の画像を復元する。

安定拡散の特徴は、高次元のピクセル空間ではなく、圧縮された画像表現である「潜在空間」においてこのプロセスを適用することである。 高次元のピクセル空間ではなく、画像の圧縮された表現である。このテクニックは 高解像度画像合成の研究論文に詳述されている。 計算要件が大幅に削減され 推論の待ち時間が短縮され、メモリ使用量も少なくなります。この モデルは、CLIPのようなテキストエンコーダーを利用する。 CLIPなどのテキストエンコーダーを利用します。 埋め込みに変換する。 最終的な出力が説明と一致することを保証します。

関連性と現実世界の応用

オンデマンドでカスタム画像を生成する能力は、特に以下のような様々な業界に大きな影響を与える。 コンピュータ・ビジョン(CV)や機械学習 ワークフローにおいて大きな意味を持つ。

  • 合成データの生成:MLエンジニアにとって最も実用的なアプリケーションの1つは、データ不足に対処するためのトレーニングデータの生成である。 トレーニングデータを生成することである。例えば 例えば のように YOLO11のような物体を検出するモデルを訓練する場合、特定の種類の工業的欠陥や、非日常的な環境にいる動物など、稀なシナリオを認識することができる。 のような珍しいシナリオを認識するために、YOLO11のような物体検出モデルを訓練する場合、安定拡散は何千もの多様で写実的な例を作成することができます、 フォトリアリスティックな例を作成できます。これはモデルのロバスト性を向上させ、オーバーフィッ オーバーフィッティングの防止に役立ちます。
  • 画像編集とインペインティング:ゼロから画像を作成するだけでなく、Stable Diffusionは、以下のような画像分割タスクを効果的に実行することができます。 画像のセグメンテーション作業を効果的に行うことができます。 インペインティング。これにより、ユーザーは画像の特定の領域を、生成されたコンテンツに置き換えて編集することができます。 データ補強やクリエイティブな 後処理に役立ちます。

安定拡散と関連概念の区別

他のジェネレーティブ・テクノロジーと一括りにされがちだが、ステイブル・ディフュージョンには明確な特徴がある:

  • 対GANs生成的逆数ネットワーク(GAN) は、画像生成のための以前の標準だった。しかし、GANは不安定性や「モード崩壊」(モデルが生成する画像の種類が限られる)のため、学習が難しいことで知られている。 と "モード崩壊"(モデルが生成する画像の種類が限られる)のために、学習が難しいことで有名である。安定拡散は GANの単一の生成速度に比べ、一般的に生成速度は遅くなるが、学習の安定性と出力の多様性が向上する。 GANのシングルフォワードパスと比較すると、生成速度は遅くなります。
  • 対従来のオートエンコーダ:安定拡散では オートエンコーダ(特に変分オートエンコーダ またはVAE)を使用してピクセル空間と潜在空間間を移動しますが、コアとなる生成ロジックは拡散プロセスです。標準的な 標準的なオートエンコーダは、主に圧縮やノイズ除去に使用され、テキスト条件付き生成機能はありません。

ビジョンAIワークフローとの統合

Ultralytics Python APIを使用する開発者にとって、Stable Diffusionは強力な上流ツールとして機能する。合成画像のデータセットを生成し、それらに注釈を付け、そしてそれらを高性能ビジョンモデルの学習に使用することができます。 高性能なビジョンモデルの学習に使用することができます。

次の例は、YOLO11 モデルをStable Diffusionで生成された合成画像を含むデータセットで学習させるワークフローをどのように構成するかを示している。 でYOLO11モデルを学習させるワークフローの構成例を示します:

from ultralytics import YOLO

# Load the YOLO11 model (recommended for latest state-of-the-art performance)
model = YOLO("yolo11n.pt")

# Train the model on a dataset.yaml that includes paths to your synthetic data
# This helps the model learn from diverse, generated scenarios
results = model.train(
    data="synthetic_dataset.yaml",  # Config file pointing to real + synthetic images
    epochs=50,
    imgsz=640,
)

このワークフローは、生成AIと識別AIの相乗効果を強調している、 そして、YOLO11 ようなモデルは、現実世界での分類や検出のようなタスクを実行するために、そこから学習する。 分類や検出のようなタスクを実世界で実行する。このプロセスを最適化するために このプロセスを最適化するために、エンジニアはしばしば ハイパーパラメータ・チューニングを採用することが多い。 このプロセスを最適化するために、エンジニアはしばしばハイパーパラメータのチューニングを行います。

ディープラーニングフレームワーク PyTorchTensorFlowなどのディープラーニングフレームワークは、これらのモデルを実行するための基礎となる。技術の進化とともに テクノロジーの進化に伴い、生成と解析の統合が強化され、次のようなことが可能になります。 人工知能で 人工知能の可能性を押し広げている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加