YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

Stable Diffusion

テキストプロンプトからリアルな画像を生成し、創造性と効率性を革新する最先端のAIモデルであるStable Diffusionをご覧ください。

Stable Diffusionは、Stability AIによって2022年にリリースされた、強力で人気のあるオープンソースの生成AIモデルです。これは主に、簡単なテキスト記述から詳細で高品質な画像を作成する機能で知られており、テキストから画像への合成として知られるプロセスです。潜在拡散モデルとして、オープンソースの性質と、他の大規模モデルと比較して比較的控えめな計算要件により、高性能画像生成をより幅広い開発者、アーティスト、研究者が利用できるようにする上で、大きな進歩を遂げています。

Stable Diffusionはどのように機能するか

Stable Diffusionは、本質的に、拡散プロセスの原理に基づいて動作します。モデルは、最初に多数の画像を取得し、元の画像が完全に不明瞭になるまで「ノイズ」(ランダムな静的ノイズ)を徐々に追加することによってトレーニングされます。次に、純粋なノイズから開始し、与えられたテキストプロンプトに一致する一貫性のある画像を形成するために、段階的にノイズを除去する方法を学習します。

Stable Diffusionが特に効率的なのは、この拡散処理を高次元のピクセル空間ではなく、より低次元の「潜在空間」で実行することです。オリジナルの潜在拡散モデルの研究論文で概説されているこのアプローチは、トレーニング推論の両方に必要な計算能力を大幅に削減し、モデルがコンシューマーグレードのGPUで実行できるようにします。このモデルは、CLIPのようなテキストエンコーダを使用して、ユーザーのテキストプロンプトを解釈し、目的の画像に向けてノイズ除去プロセスを誘導します。

Stable Diffusionと他の生成モデルの比較

Stable Diffusionは、その独自の特徴により、他の著名な生成モデルとは一線を画しています。

  • DALL-EおよびMidjourneyとの比較:OpenAIのDALL-E 3Midjourneyのようなモデルは素晴らしい結果を生み出しますが、プロプライエタリであり、主に有料サービスとして提供されています。Stable Diffusionの主な利点は、オープンソースであることです。これにより、誰でもモデルをダウンロードし、そのアーキテクチャを調べ、許可なしに特定の目的のためにカスタムデータセットでファインチューンできます。
  • GANとの比較: 敵対的生成ネットワーク(GAN)は、生成モデルの別の種類です。Stable Diffusionのような拡散モデルは、一般的に、より安定した学習を提供し、多様で忠実度の高い画像を生成することに優れています。しかし、GANは通常、1回のフォワードパスしか必要としないため、画像の生成がより高速になる場合があります。

実際のアプリケーション

Stable Diffusionの柔軟性とアクセスのしやすさから、多くの分野で採用されています。

  • クリエイティブアーツとエンターテインメント: アーティストやデザイナーは、Stable Diffusionをコンセプトアート、ストーリーボード、ユニークなビジュアルアセットの作成に使用します。例えば、ゲーム開発者は、数分で数十のキャラクターコンセプトや環境背景を生成し、創造的なワークフローを大幅にスピードアップできます。Adobe Fireflyのようなツールは、同様の生成技術を統合して、クリエイティブソフトウェアスイートを強化しています。
  • 合成データ生成: コンピュータビジョンでは、高品質な学習データが非常に重要です。Stable Diffusionは、現実世界のデータセットを補強するために、大量の現実的な合成データを生成できます。たとえば、物体検出モデル(Ultralytics YOLOなど)を改善するために、開発者はさまざまな照明条件、向き、設定でオブジェクトの画像を生成し、モデルの堅牢性と精度を向上させることができます。これは、特にまれなオブジェクトクラスに有効です。

開発とエコシステム

Stable Diffusionの利用は、豊富なツールとライブラリのエコシステムによって促進されます。その動作の基礎となるのはPyTorchのようなフレームワークです。Hugging Face Diffusersライブラリは、Stable Diffusionや他の拡散モデルを容易にダウンロード、実行、実験するための標準となっています。Stable Diffusionは生成に優れていますが、Ultralytics HUBのようなプラットフォームは、データセットの管理や、画像セグメンテーションや分類といったタスクのための識別的AIモデルのデプロイなど、より広範な機械学習ライフサイクルを包括的にサポートする環境を提供します。このような強力な生成ツールの台頭は、ディープフェイクの作成やアルゴリズムバイアスの強化の可能性など、AI倫理に関する重要な議論を最前線にもたらします。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました