テキストプロンプトからリアルな画像を生成し、創造性と効率性を革新する最先端のAIモデルであるStable Diffusionをご覧ください。
Stable Diffusionは、著名なオープンソースの生成AIモデルです。 生成AIモデルである。 として知られるプロセスである。 として知られるプロセスである。リリース元 Stability AIによって発表されたこのディープラーニング・アーキテクチャは を搭載したコンシューマーグレードのハードウェアで実行できるほど効率的である。 GPU.クラウドサービス経由でしかアクセスできない クラウド・サービス経由でしかアクセスできないプロプライエタリなモデルとは異なり、Stable Diffusionはオープンに利用できるため、研究者や開発者は 研究者や開発者は、そのコードを検査し、その重みを変更し、芸術的ツールから合成データパイプラインに至るまで、カスタムアプリケーションを構築することができる。 合成データパイプライン
安定拡散の核心は、拡散モデルの一種である。 拡散モデルの一種で、具体的には潜在拡散モデル モデル(LDM)である。このプロセスは熱力学からヒントを得ており、徐々に劣化していくプロセスを逆転させるための学習が含まれる。 劣化である。
安定拡散の特徴は、高次元のピクセル空間ではなく、圧縮された画像表現である「潜在空間」においてこのプロセスを適用することである。 高次元のピクセル空間ではなく、画像の圧縮された表現である。このテクニックは 高解像度画像合成の研究論文に詳述されている。 計算要件が大幅に削減され 推論の待ち時間が短縮され、メモリ使用量も少なくなります。この モデルは、CLIPのようなテキストエンコーダーを利用する。 CLIPなどのテキストエンコーダーを利用します。 埋め込みに変換する。 最終的な出力が説明と一致することを保証します。
オンデマンドでカスタム画像を生成する能力は、特に以下のような様々な業界に大きな影響を与える。 コンピュータ・ビジョン(CV)や機械学習 ワークフローにおいて大きな意味を持つ。
他のジェネレーティブ・テクノロジーと一括りにされがちだが、ステイブル・ディフュージョンには明確な特徴がある:
Ultralytics Python APIを使用する開発者にとって、Stable Diffusionは強力な上流ツールとして機能する。合成画像のデータセットを生成し、それらに注釈を付け、そしてそれらを高性能ビジョンモデルの学習に使用することができます。 高性能なビジョンモデルの学習に使用することができます。
次の例は、YOLO11 モデルをStable Diffusionで生成された合成画像を含むデータセットで学習させるワークフローをどのように構成するかを示している。 でYOLO11モデルを学習させるワークフローの構成例を示します:
from ultralytics import YOLO
# Load the YOLO11 model (recommended for latest state-of-the-art performance)
model = YOLO("yolo11n.pt")
# Train the model on a dataset.yaml that includes paths to your synthetic data
# This helps the model learn from diverse, generated scenarios
results = model.train(
data="synthetic_dataset.yaml", # Config file pointing to real + synthetic images
epochs=50,
imgsz=640,
)
このワークフローは、生成AIと識別AIの相乗効果を強調している、 そして、YOLO11 ようなモデルは、現実世界での分類や検出のようなタスクを実行するために、そこから学習する。 分類や検出のようなタスクを実世界で実行する。このプロセスを最適化するために このプロセスを最適化するために、エンジニアはしばしば ハイパーパラメータ・チューニングを採用することが多い。 このプロセスを最適化するために、エンジニアはしばしばハイパーパラメータのチューニングを行います。
ディープラーニングフレームワーク PyTorchや TensorFlowなどのディープラーニングフレームワークは、これらのモデルを実行するための基礎となる。技術の進化とともに テクノロジーの進化に伴い、生成と解析の統合が強化され、次のようなことが可能になります。 人工知能で 人工知能の可能性を押し広げている。


