用語集

安定した拡散

テキストプロンプトからリアルな画像を生成し、創造性と効率性に革命をもたらす最先端のAIモデル、Stable Diffusionをご覧ください。

Stable Diffusionは、2022年にStability AIによってリリースされた、強力で人気のあるオープンソースの生成AIモデルである。主に、テキストから画像への合成として知られる、簡単なテキスト記述から詳細で高品質な画像を作成する能力で知られている。潜在拡散モデルとして、そのオープンソースの性質と、他の大規模なモデルと比較して比較的控えめな計算要件により、高性能な画像生成をより多くの開発者、アーティスト、研究者が利用できるようにする重要な進歩を表しています。

安定した拡散の仕組み

ステイブル・ディフュージョンは、拡散プロセスの原理に基づいて動作する。このモデルはまず、膨大な数の画像を取り込み、元の画像が完全に見えなくなるまで「ノイズ」(ランダムな静的ノイズ)を徐々に追加することで学習される。その後、このプロセスを逆行させる方法を学習し、純粋なノイズから始め、徐々に段階的にノイズ除去を行い、与えられたテキストプロンプトに一致する首尾一貫した画像を形成する。

Stable Diffusionが特に効率的なのは、この拡散プロセスをピクセルの高次元空間ではなく、低次元の「潜在空間」で実行することだ。オリジナルの潜在拡散モデルの研究論文で概説されたこのアプローチにより、学習と 推論の両方に必要な計算能力が大幅に削減され、コンシューマーグレードのGPUでモデルを実行できるようになりました。このモデルは、CLIPのようなテキストエンコーダーを使用して、ユーザーのテキストプロンプトを解釈し、ノイズ除去プロセスを目的の画像に導きます。

安定した拡散と他の生成モデルとの比較

安定した拡散は、そのユニークな特徴によって、他の著名な生成モデルとは一線を画している:

  • DALL-EやMidjourneyと比較して: OpenAIのDALL-E 3や Midjourneyのようなモデルは見事な結果を出すが、プロプライエタリであり、主に有料サービスとして提供されている。Stable Diffusionの主な利点は、オープンソースであることだ。これにより、誰でもモデルをダウンロードし、そのアーキテクチャを調べ、特定の目的のためにカスタムデータセットで微調整することができる。
  • GANとの比較 GAN(Generative Adversarial Networks)は、生成モデルのもう一つのクラスである。一般的に、安定拡散のような拡散モデルは、より安定した学習を提供し、より多様で忠実度の高い画像を生成することに優れています。しかし、GANは一般的に1回のフォワードパスしか必要としないため、より高速に画像を生成できる場合があります。

実世界での応用

安定拡散の柔軟性と利用しやすさから、多くの分野で採用されている。

  • クリエイティブアートとエンターテイメントアーティストやデザイナーは、コンセプトアート、ストーリーボード、ユニークなビジュアルアセットの作成にStable Diffusionを使用しています。例えば、ゲーム開発者は、数分で何十ものキャラクターコンセプトや環境背景を生成することができ、クリエイティブなワークフローを劇的にスピードアップできます。Adobe Fireflyのようなツールは、同様のジェネレーティブ・テクノロジーを統合し、クリエイティブ・ソフトウェア・スイートを強化しています。
  • 合成データの生成: コンピュータビジョンでは、高品質のトレーニングデータが非常に重要です。Stable Diffusionは、実世界のデータセットを補強するために、膨大な量の現実的な合成データを生成することができます。例えば、Ultralytics YOLOのような物体検出モデルを改善するために、開発者は様々な照明条件、方向、設定で物体の画像を生成し、モデルのロバスト性と精度、特に希少な物体クラスの精度を向上させることができます。

開発とエコシステム

Stable Diffusionでの作業は、ツールやライブラリの豊富なエコシステムによって促進されます。PyTorchのようなフレームワークは、Stable Diffusionの動作の基本です。Hugging Face Diffusersライブラリは、Stable Diffusionや他の拡散モデルを簡単にダウンロード、実行、実験するための標準となっています。Stable Diffusionが生成に秀でている一方で、Ultralytics HUBのようなプラットフォームは、データセットの管理や、画像のセグメンテーションや分類のようなタスクのための識別AIモデルのデプロイを含む、より広範な機械学習ライフサイクルのための包括的な環境を提供します。このような強力な生成ツールの台頭は、ディープフェイクの作成やアルゴリズムバイアスの強化の可能性など、AIの倫理をめぐる重要な議論も前面に押し出している。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク