用語集

ControlNet

ControlNetが生成AIに精密な空間制御をどのように提供するかを探求します。今日の画像生成をガイドするために、ポーズ抽出にUltralytics YOLO26を使用する方法を学びましょう。

ControlNetは、大規模なテキストから画像への生成AIモデルに対して、きめ細かな空間的制御を可能にするように設計された高度なニューラルネットワークアーキテクチャです。元々はStable Diffusionのようなモデルを強化するために導入されましたが、テキストプロンプトだけでなく、追加の入力条件を使用して画像生成をガイドすることを可能にします。エッジマップ、深度マップ、人間の骨格などの特定の視覚ガイドをネットワークに供給することで、実践者は生成される出力の正確な構成、姿勢、または構造を指示でき、自然言語記述と正確な視覚的実行との間のギャップを埋めます。

建築の仕組み

ControlNetの核となる革新は、ベースの基盤モデルの膨大な事前学習済み知識を保持しながら、新しい条件付けタスクを学習する能力にあります。これは、元のニューラルネットワークブロックのパラメータをロックし、学習可能なクローンを作成することで実現されます。このクローンは、特殊な「ゼロ畳み込み」層を使用してロックされたモデルに接続されます。これらの層はゼロ重みで初期化され、ファインチューニングの初期段階でノイズが追加されないことを保証します。数学的および構造的理論の詳細については、arXiv上のControlNetのオリジナル研究論文で読むことができます。

この独自の構造により、開発者は消費者向けハードウェアで堅牢な条件付け制御をトレーニングでき、大規模なディープラーニングモデルをゼロからトレーニングするよりもはるかにアクセスしやすくなります。

ControlNetと拡散モデルおよびLoRA

生成型人工知能について議論する際、ControlNetを関連する概念と区別することが役立ちます。

Diffusion Models: これらは、ノイズを反復的に除去することで画像を生成する基盤となるエンジンです。これらはほぼ排他的にテキストプロンプトに依存します。
LoRA (Low-Rank Adaptation): LoRAは、モデルに新しいスタイルや被写体（特定のキャラクターやアートスタイルなど）を素早く学習させるための手法です。対照的に、ControlNetは画像の正確な空間配置を指示します。

実際のアプリケーション

ControlNetは、プロフェッショナルなワークフローにおけるコンピュータビジョンと生成AIの有用性を劇的に拡大しました。

建築コンセプトレンダリング: 建築家やインテリアデザイナーは、ControlNetを使用して、基本的な白黒のコンピュータ支援設計（CAD）の青写真や手描きのスケッチを、建物や部屋のフォトリアリスティックなレンダリングに変換します。
ゲーム開発におけるキャラクターポージング: アニメーターは、人間の姿勢推定モデルを活用して、参照ビデオから骨格構造を抽出します。これらの骨格はControlNetに入力され、ビデオゲームアセット向けに正確なポーズをとる一貫した様式化されたキャラクタースプライトを生成し、手作業によるイラスト作成時間を大幅に削減します。

ControlNetの条件を準備する

ControlNetを効果的に活用するには、まずソース画像から目的の空間条件を抽出する必要があります。例えば、最新の最先端ビジョンモデルであるUltralytics YOLO26を使用して、人間の姿勢の骨格を抽出できます。この骨格はその後保存され、ControlNet対応のテキストから画像へのパイプラインの条件付け入力として使用されます。

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

標準のOpenCV関数を使用してキャニーエッジを準備する場合でも、高度なセグメンテーションマスクを抽出する場合でも、高品質な入力の準備は不可欠です。カスタムControlNet条件のトレーニングに必要なクラウドベースのデータセット管理とデータアノテーションには、Ultralytics Platformのようなプラットフォームが、現代のAIチームにシームレスなエンドツーエンド環境を提供します。

ControlNet

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

建築の仕組み

ControlNetと拡散モデルおよびLoRA

実際のアプリケーション

ControlNetの条件を準備する

このカテゴリの関連記事

ドイツで開催されるハノーバー・メッセ2026Ultralytics の主な見どころ

コンピュータビジョンプロジェクトTensorFlow PyTorch TensorFlow の選択

コンピュータビジョンにおける教師あり学習と教師なし学習の比較

共にAIの未来を築きましょう！

ControlNet

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

建築の仕組み

ControlNetと拡散モデルおよびLoRA

実際のアプリケーション

ControlNetの条件を準備する

このカテゴリの関連記事

ドイツで開催されるハノーバー・メッセ2026Ultralytics の主な見どころ

コンピュータビジョンプロジェクトTensorFlow PyTorch TensorFlow の選択

コンピュータビジョンにおける教師あり学習と教師なし学習の比較

共にAIの未来を築きましょう！

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。