ControlNetが生成AIに精密な空間制御をどのように提供するかを探求します。今日の画像生成をガイドするために、ポーズ抽出にUltralytics YOLO26を使用する方法を学びましょう。
ControlNetは、大規模なテキストから画像への生成AIモデルに対して、きめ細かな空間的制御を可能にするように設計された高度なニューラルネットワークアーキテクチャです。元々はStable Diffusionのようなモデルを強化するために導入されましたが、テキストプロンプトだけでなく、追加の入力条件を使用して画像生成をガイドすることを可能にします。エッジマップ、深度マップ、人間の骨格などの特定の視覚ガイドをネットワークに供給することで、実践者は生成される出力の正確な構成、姿勢、または構造を指示でき、自然言語記述と正確な視覚的実行との間のギャップを埋めます。
ControlNetの核となる革新は、ベースの基盤モデルの膨大な事前学習済み知識を保持しながら、新しい条件付けタスクを学習する能力にあります。これは、元のニューラルネットワークブロックのパラメータをロックし、学習可能なクローンを作成することで実現されます。このクローンは、特殊な「ゼロ畳み込み」層を使用してロックされたモデルに接続されます。これらの層はゼロ重みで初期化され、ファインチューニングの初期段階でノイズが追加されないことを保証します。数学的および構造的理論の詳細については、arXiv上のControlNetのオリジナル研究論文で読むことができます。
この独自の構造により、開発者は消費者向けハードウェアで堅牢な条件付け制御をトレーニングでき、大規模なディープラーニングモデルをゼロからトレーニングするよりもはるかにアクセスしやすくなります。
生成型人工知能について議論する際、ControlNetを関連する概念と区別することが役立ちます。
ControlNetは、プロフェッショナルなワークフローにおけるコンピュータビジョンと生成AIの有用性を劇的に拡大しました。
ControlNetを効果的に活用するには、まずソース画像から目的の空間条件を抽出する必要があります。例えば、最新の最先端ビジョンモデルであるUltralytics YOLO26を使用して、人間の姿勢の骨格を抽出できます。この骨格はその後保存され、ControlNet対応のテキストから画像へのパイプラインの条件付け入力として使用されます。
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
標準のOpenCV関数を使用してキャニーエッジを準備する場合でも、高度なセグメンテーションマスクを抽出する場合でも、高品質な入力の準備は不可欠です。カスタムControlNet条件のトレーニングに必要なクラウドベースのデータセット管理とデータアノテーションには、Ultralytics Platformのようなプラットフォームが、現代のAIチームにシームレスなエンドツーエンド環境を提供します。
未来の機械学習で、新たな一歩を踏み出しましょう。