Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

شبكة التحكم

اكتشف كيف يوفر ControlNet تحكمًا مكانيًا دقيقًا في الذكاء الاصطناعي التوليدي. تعلم كيفية استخدام Ultralytics لاستخراج الوضعيات لتوجيه إنشاء الصور اليوم.

ControlNet هي بنية شبكة عصبية متقدمة مصممة لمنح تحكم دقيق ومكاني على نماذج الذكاء الاصطناعي التوليدية الكبيرة للتحويل من نص إلى صورة. تم تقديمها في الأصل لتحسين نماذج مثل Stable Diffusion، وهي تتيح للمستخدمين توجيه إنشاء الصور باستخدام شروط إدخال إضافية تتجاوز مجرد المطالبات النصية. من خلال تغذية الشبكة بأدلة بصرية محددة — مثل خرائط الحواف أو خرائط العمق أو الهياكل العظمية البشرية — يمكن للممارسين تحديد التكوين أو الوضع أو الهيكل الدقيق للناتج المولد، مما يسد الفجوة بين الوصف اللغوي الطبيعي والتنفيذ البصري الدقيق .

كيف تعمل الهندسة المعمارية

تكمن الابتكار الأساسي لـ ControlNet في قدرته على الحفاظ على المعرفة الواسعة والمسبقة التدريب لنموذج أساسي أساسي أثناء تعلم مهام تكييف جديدة . ويحقق ذلك عن طريق قفل معلمات كتلة الشبكة العصبية الأصلية وإنشاء نسخة قابلة للتدريب . يرتبط هذا النسخة بالنموذج المقفل باستخدام طبقات "التلافيف الصفرية" المتخصصة، والتي تبدأ بوزن صفر لضمان عدم إضافة أي ضوضاء خلال المراحل المبكرة من الضبط الدقيق. يمكنك قراءة المزيد عن النظرية الرياضية والهيكلية في منشور البحث الأصلي لـ ControlNet على arXiv.

يتيح هذا الهيكل الفريد للمطورين تدريب عناصر تحكم قوية في التكييف على أجهزة من فئة المستهلكين، مما يجعلها سهلة الوصول للغاية مقارنة بتدريب نموذج تعلم عميق ضخم من الصفر.

ControlNet مقابل نماذج الانتشار و LoRA

عند مناقشة الذكاء الاصطناعي التوليدي ، من المفيد التمييز بين ControlNet والمفاهيم ذات الصلة:

  • نماذج الانتشار: هذه هي المحركات الأساسية التي تولد الصور عن طريق إزالة الضوضاء بشكل متكرر. وهي تعتمد بشكل حصري تقريبًا على المطالبات النصية.
  • LoRA (التكيف منخفض الرتبة): LoRA هي طريقة لتعليم النموذج بسرعة أسلوبًا أو موضوعًا جديدًا (مثل شخصية معينة أو أسلوب فني). في المقابل، تحدد ControlNet الترتيب المكاني الدقيق للصورة.

تطبيقات واقعية

لقد وسعت ControlNet بشكل كبير من فائدة الرؤية الحاسوبية والذكاء الاصطناعي التوليدي في سير العمل الاحترافي.

  • تصميم المفاهيم المعمارية: يستخدم المهندسون المعماريون ومصممو الديكور الداخلي ControlNet لتحويل المخططات الأساسية بالأبيض والأسود المصممة بمساعدة الكمبيوتر (CAD) أو الرسومات اليدوية إلى تصميمات واقعية للمباني والغرف.
  • وضع الشخصيات في تطوير الألعاب: يستفيد رسامو الرسوم المتحركة من نماذج تقدير وضع الإنسان لاستخراج الهياكل العظمية من مقطع فيديو مرجعي. يتم إدخال هذه الهياكل العظمية في ControlNet لتوليد شخصيات متسقة ومنمقة تحافظ على أوضاع دقيقة لأصول ألعاب الفيديو، مما يقلل بشكل كبير من وقت الرسم اليدوي.

تحضير الشروط اللازمة لـ ControlNet

لاستخدام ControlNet بفعالية، يجب أولاً استخراج الحالة المكانية المطلوبة من صورة المصدر. على سبيل المثال، يمكنك استخدام Ultralytics ، أحدث نموذج رؤية متطور، لاستخراج هيكل عظمي لوضعية الإنسان. ثم يتم حفظ هذا الهيكل العظمي واستخدامه كمدخل تكييف لخط أنابيب تحويل النص إلى صورة يدعم ControlNet.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")

# Perform inference to extract the human pose skeleton
results = model("character_reference.jpg")

# Save the resulting plotted skeleton to use as ControlNet input
results[0].save("pose_conditioning.jpg")

سواء كنت تقوم بإعداد حواف Canny باستخدام OpenCV القياسية أو استخراج أقنعة تقسيم متقدمة، فإن إعداد مدخلات عالية الجودة أمر ضروري. لإدارة مجموعات البيانات المستندة إلى السحابة و تعليق البيانات المطلوبة لتدريب شروط ControlNet المخصصة، توفر منصات مثل Ultralytics بيئة سلسة ومتكاملة لفرق الذكاء الاصطناعي الحديثة.

عزز قوتك مع Ultralytics YOLO

احصل على رؤية الذكاء الاصطناعي المتقدمة لمشاريعك. ابحث عن الترخيص المناسب لأهدافك اليوم.

اكتشف خيارات الترخيص