ControlNetが生成AIに精密な空間制御を提供する仕組みを探求しましょう。Ultralytics を用いた姿勢抽出で画像生成を導く方法を、今すぐ学びましょう。
ControlNetは、大規模なテキストから画像を生成するAIモデルに対して、微細な空間制御を可能にする先進的なニューラルネットワークアーキテクチャです。 Stable Diffusionなどのモデルを強化するために導入され、ユーザーはテキストプロンプト以外の追加入力条件を用いて画像生成を誘導できます。 エッジマップ、深度マップ、人体骨格などの 特定の視覚ガイドをネットワークに供給することで、 実践者は生成出力の正確な構図、姿勢、構造を指示でき、 自然言語記述と精密な視覚的実行の間のギャップを埋める。
ControlNetの中核となる革新性は、基盤となる基礎モデルの膨大な事前学習済み知識を保持しつつ、新たな条件付けタスクを学習する能力にあります。これは、元のニューラルネットワークブロックのパラメータを固定し、学習可能なクローンを作成することで実現されます。 このクローンは、特殊な「ゼロ畳み込み」層を介してロックされたモデルに接続されます。 この層は初期値をゼロの重みで設定し、微調整の初期段階でノイズが追加されないようにします。 数学的・構造的な理論の詳細については、 arXivに掲載されたControlNetのオリジナル研究論文をご覧ください。
このユニークな構造により、開発者はコンシューマー向けハードウェア上で堅牢な条件制御を学習させることが可能となり、大規模な深層学習モデルを一から学習させる場合と比較して、非常にアクセスしやすくなっています。
生成型人工知能について議論する際には、ControlNetを関連概念と区別することが有用である:
ControlNetは、プロフェッショナルなワークフローにおける コンピュータービジョンと生成AIの有用性を 劇的に拡大しました。
ControlNetを効果的に活用するには、まずソース画像から目的の空間的条件を抽出する必要があります。例えば、 Ultralytics などの最新鋭ビジョンモデルを用いて人間の姿勢骨格を抽出できます。この骨格は保存され、ControlNet対応テキストから画像生成パイプラインの条件付け入力として使用されます。
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
標準OpenCV 用いたCannyエッジの準備であれ、高度なセグメンテーションマスクの抽出であれ、高品質な入力データの準備は不可欠です。カスタムControlNetモデルをトレーニングするために必要なクラウドベースのデータセット管理やデータアノテーションには、Ultralytics プラットフォームが、現代のAIチーム向けにシームレスなエンドツーエンド環境を提供します。