ControlNet
استكشف كيف يوفر ControlNet تحكمًا مكانياً دقيقاً في الذكاء الاصطناعي التوليدي. تعلم استخدام Ultralytics YOLO26 لاستخراج الأوضاع لتوجيه توليد الصور اليوم.
ControlNet هي بنية شبكة عصبية متطورة مصممة لمنح تحكم مكاني دقيق في نماذج الذكاء الاصطناعي التوليدي القائمة على تحويل النص إلى صورة. تم تقديمها في الأصل لتحسين نماذج مثل Stable Diffusion، وهي تسمح للمستخدمين بتوجيه عملية توليد الصور باستخدام شروط إدخال إضافية تتجاوز مجرد مطالبات النص. من خلال تغذية الشبكة بأدلة بصرية محددة—مثل خرائط الحواف، أو خرائط العمق، أو الهياكل العظمية البشرية—يمكن للممارسين تحديد التكوين أو الوضعية أو الهيكل الدقيق للمخرجات الناتجة، مما يسد الفجوة بين أوصاف اللغة الطبيعية والتنفيذ البصري الدقيق.
Link to this sectionكيفية عمل البنية#
يكمن الابتكار الجوهري لـ ControlNet في قدرتها على الحفاظ على المعرفة الواسعة والمُدربة مسبقاً لـ النموذج التأسيسي مع تعلم مهام تكييف جديدة. تحقق ذلك عن طريق قفل معاملات كتلة الشبكة العصبية الأصلية وإنشاء نسخة قابلة للتدريب. يتم توصيل هذه النسخة بالنموذج المقفل باستخدام طبقات "تلافيف صفرية" (zero convolution) متخصصة، والتي يتم تهيئتها بأوزان صفرية لضمان عدم إضافة أي ضوضاء خلال المراحل المبكرة من الضبط الدقيق. يمكنك قراءة المزيد حول النظرية الرياضية والهيكلية في منشور بحث ControlNet الأصلي على arXiv.
يسمح هذا الهيكل الفريد للمطورين بتدريب عناصر تحكم قوية على أجهزة المستهلك العادية، مما يجعلها سهلة الوصول للغاية مقارنة بتدريب نموذج تعلم عميق ضخم من الصفر.
Link to this sectionControlNet مقابل نماذج الانتشار و LoRA#
عند مناقشة الذكاء الاصطناعي التوليدي، من المفيد التمييز بين ControlNet والمفاهيم ذات الصلة:
- نماذج الانتشار: هذه هي المحركات الأساسية التي تولد الصور عن طريق إزالة الضوضاء بشكل متكرر. وهي تعتمد بشكل حصري تقريباً على مطالبات النص.
- LoRA (التكيف منخفض الرتبة): LoRA هي طريقة لتعليم النموذج بسرعة أسلوباً أو موضوعاً جديداً (مثل شخصية معينة أو أسلوب فني). في المقابل، تقوم ControlNet بتحديد الترتيب المكاني الدقيق للصورة.
Link to this sectionتطبيقات العالم الحقيقي#
لقد وسعت ControlNet بشكل كبير من فائدة الرؤية الحاسوبية والذكاء الاصطناعي التوليدي في سير العمل المهني.
- عرض المفهوم المعماري: يستخدم المهندسون المعماريون ومصممو الديكور الداخلي ControlNet لتحويل مخططات التصميم بمساعدة الحاسوب (CAD) الأساسية بالأبيض والأسود أو الرسومات المرسومة باليد إلى نماذج واقعية للمباني والغرف.
- تحديد وضعية الشخصية في تطوير الألعاب: يستفيد المحركون من نماذج تقدير الوضعية البشرية لاستخراج الهياكل العظمية من فيديو مرجعي. يتم تغذية هذه الهياكل العظمية في ControlNet لتوليد صور شخصيات متسقة ومنمقة تتخذ وضعيات دقيقة لأصول ألعاب الفيديو، مما يقلل بشكل كبير من وقت الرسم اليدوي.
Link to this sectionإعداد الشروط لـ ControlNet#
لاستخدام ControlNet بفعالية، يجب عليك أولاً استخراج الشرط المكاني المطلوب من صورة مصدر. على سبيل المثال، يمكنك استخدام Ultralytics YOLO26، وهو أحدث نموذج رؤية متطور، لاستخراج هيكل عظمي لوضعية بشرية. يتم بعد ذلك حفظ هذا الهيكل العظمي واستخدامه كمدخل تكييف لخط أنابيب تحويل النص إلى صورة الممكن عبر ControlNet.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")
# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")سواء كنت تقوم بإعداد حواف Canny باستخدام دوال OpenCV القياسية أو استخراج أقنعة تجزئة متقدمة، فإن إعداد مدخلات عالية الجودة أمر ضروري. لإدارة مجموعات البيانات المستندة إلى السحابة وتعليق البيانات المطلوب لتدريب شروط ControlNet مخصصة، توفر منصات مثل منصة Ultralytics بيئة سلسة وشاملة لفرق الذكاء الاصطناعي الحديثة.






