اكتشف كيف يوفر ControlNet تحكمًا مكانيًا دقيقًا في الذكاء الاصطناعي التوليدي. تعلم كيفية استخدام Ultralytics لاستخراج الوضعيات لتوجيه إنشاء الصور اليوم.
ControlNet هي بنية شبكة عصبية متقدمة مصممة لمنح تحكم دقيق ومكاني على نماذج الذكاء الاصطناعي التوليدية الكبيرة للتحويل من نص إلى صورة. تم تقديمها في الأصل لتحسين نماذج مثل Stable Diffusion، وهي تتيح للمستخدمين توجيه إنشاء الصور باستخدام شروط إدخال إضافية تتجاوز مجرد المطالبات النصية. من خلال تغذية الشبكة بأدلة بصرية محددة — مثل خرائط الحواف أو خرائط العمق أو الهياكل العظمية البشرية — يمكن للممارسين تحديد التكوين أو الوضع أو الهيكل الدقيق للناتج المولد، مما يسد الفجوة بين الوصف اللغوي الطبيعي والتنفيذ البصري الدقيق .
تكمن الابتكار الأساسي لـ ControlNet في قدرته على الحفاظ على المعرفة الواسعة والمسبقة التدريب لنموذج أساسي أساسي أثناء تعلم مهام تكييف جديدة . ويحقق ذلك عن طريق قفل معلمات كتلة الشبكة العصبية الأصلية وإنشاء نسخة قابلة للتدريب . يرتبط هذا النسخة بالنموذج المقفل باستخدام طبقات "التلافيف الصفرية" المتخصصة، والتي تبدأ بوزن صفر لضمان عدم إضافة أي ضوضاء خلال المراحل المبكرة من الضبط الدقيق. يمكنك قراءة المزيد عن النظرية الرياضية والهيكلية في منشور البحث الأصلي لـ ControlNet على arXiv.
يتيح هذا الهيكل الفريد للمطورين تدريب عناصر تحكم قوية في التكييف على أجهزة من فئة المستهلكين، مما يجعلها سهلة الوصول للغاية مقارنة بتدريب نموذج تعلم عميق ضخم من الصفر.
عند مناقشة الذكاء الاصطناعي التوليدي ، من المفيد التمييز بين ControlNet والمفاهيم ذات الصلة:
لقد وسعت ControlNet بشكل كبير من فائدة الرؤية الحاسوبية والذكاء الاصطناعي التوليدي في سير العمل الاحترافي.
لاستخدام ControlNet بفعالية، يجب أولاً استخراج الحالة المكانية المطلوبة من صورة المصدر. على سبيل المثال، يمكنك استخدام Ultralytics ، أحدث نموذج رؤية متطور، لاستخراج هيكل عظمي لوضعية الإنسان. ثم يتم حفظ هذا الهيكل العظمي واستخدامه كمدخل تكييف لخط أنابيب تحويل النص إلى صورة يدعم ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")
سواء كنت تقوم بإعداد حواف Canny باستخدام OpenCV القياسية أو استخراج أقنعة تقسيم متقدمة، فإن إعداد مدخلات عالية الجودة أمر ضروري. لإدارة مجموعات البيانات المستندة إلى السحابة و تعليق البيانات المطلوبة لتدريب شروط ControlNet المخصصة، توفر منصات مثل Ultralytics بيئة سلسة ومتكاملة لفرق الذكاء الاصطناعي الحديثة.