نقل النمط العصبي
اكتشف قوة نقل النمط العصبي! امزج المحتوى والأنماط الفنية مع الذكاء الاصطناعي لإنشاء مرئيات مذهلة للفن والتصميم وغير ذلك الكثير.
يُعدّ نقل النمط العصبي (NST) تقنية مبتكرة وقوية للرؤية الحاسوبية تستخدم خوارزميات التعلّم العميق لدمج صورتين: صورة "محتوى" وصورة مرجعية "نمط". والنتيجة هي صورة جديدة تحتفظ بالأشياء الأساسية والبنية الأساسية لصورة المحتوى ولكن يتم عرضها بالأسلوب الفني لصورة النمط. تستفيد هذه التقنية من إمكانيات الشبكات العصبية التلافيفية (CNNs) لفصل عناصر المحتوى والأسلوب في الصور وإعادة دمجها، مما يؤدي إلى "رسم" صورة بجمالية صورة أخرى.
كيف يعمل نقل النمط العصبي
يكمن السحر الكامن وراء نقل النمط العصبي في كيفية معالجة الشبكات العصبية للمعلومات البصرية. وقد تعلمت شبكة مدربة مسبقاً، مثل شبكة VGG-19، التي تم تدريبها على مجموعة بيانات ImageNet الضخمة، التعرف على تسلسل هرمي غني من الميزات. تكتشف الطبقات السفلية من الشبكة ميزات بسيطة مثل الحواف والألوان، بينما تحدد الطبقات العليا البنى الأكثر تعقيداً مثل الأشكال والأشياء.
تستغل NST عملية استخراج السمات الهرمية هذه. تتضمن الفكرة الأساسية، التي تم تقديمها لأول مرة في ورقة بحثية بعنوان "خوارزمية عصبية للأسلوب الفني"، مكونين رئيسيين:
- تمثيل المحتوى: لالتقاط محتوى الصورة، يتم استخدام تنشيطات الطبقات العليا من شبكة CNN. تفهم هذه الطبقات الترتيب والأشياء عالية المستوى داخل الصورة، مما يوفر مخطط "المحتوى".
- تمثيل النمط: لالتقاط النمط، يتم تحليل الارتباطات بين استجابات السمات في طبقات متعددة. وهذا يلتقط القوام، وأنماط الألوان، والضربات الفنية دون الارتباط بالترتيب المحدد للأشياء.
ثم تقوم العملية بعد ذلك بتحسين صورة جديدة عشوائية في البداية بشكل متكرر لمطابقة تمثيل المحتوى لصورة المحتوى وتمثيل النمط لصورة النمط في نفس الوقت. يتم تحقيق ذلك من خلال تقليل دالة خسارة مركبة توجه عملية التحسين. غالبًا ما يتم تنفيذ مثل هذه النماذج باستخدام أطر عمل شائعة مثل PyTorch و TensorFlow.
التطبيقات وحالات الاستخدام
وعلى الرغم من أن تقنية NST معروفة على نطاق واسع في إنشاء الصور الفنية، إلا أن تطبيقاتها تمتد إلى مختلف المجالات التجارية والإبداعية.
- توليد المحتوى الإبداعي: التطبيق الأكثر شهرة هو في تطبيقات الهاتف المحمول مثل Prisma، والتي تسمح للمستخدمين بتحويل صورهم إلى أعمال فنية تشبه اللوحات الشهيرة. كما يستخدمها الفنانون والمصممون لوضع نماذج أولية سريعة للأنماط البصرية.
- الترفيه والإعلام: في صناعة الأفلام وألعاب الفيديو، يمكن استخدام نقل النمط العصبي لتطبيق نمط بصري متناسق عبر مشاهد مختلفة أو لإنشاء مؤثرات بصرية فريدة من نوعها. وهو يسمح بتنسيق الفيديو إطارًا بإطار، وهي عملية يمكن استكشافها بمزيد من التفصيل في البرامج التعليمية مثل دليل PyTorch هذا إلى نقل النمط العصبي.
- زيادة البيانات: في التعلم الآلي (ML)، يمكن استخدام NST كشكل من أشكال زيادة البيانات. من خلال تطبيق أنماط مختلفة على مجموعة بيانات التدريب، يمكن للمطورين إنشاء نموذج أكثر قوة وأقل حساسية للاختلافات الأسلوبية، مما يحسن من تعميمه على البيانات غير المرئية. يمكن أن يكون هذا مفيدًا بشكل خاص عند تدريب نماذج لمهام مثل اكتشاف الكائنات أو تجزئة الصور.
التمييز عن التقنيات التوليدية الأخرى
من المهم التفريق بين نقل النمط العصبي وأساليب الذكاء الاصطناعي التوليدي الشائعة الأخرى.
- شبكات الخصومة التوليدية (GANs): تقوم شبكات GANs بإنشاء صور جديدة من الصفر من خلال تعلم توزيع البيانات الأساسية لمجموعة التدريب. وعلى النقيض من ذلك، لا تنشئ شبكات الشبكات العدائية التوليدية محتوى جديدًا بل تعيد تركيب المحتوى والأسلوب الحاليين من صور مدخلات محددة. إن شبكات GAN قادرة على إنشاء وجوه واقعية لأشخاص غير موجودين، وهي مهمة خارج نطاق NST التقليدية.
- نماذج تحويل النص إلى صورة: تقوم نماذج مثل Stable Diffusion و DALL-E بتوليد الصور بناءً على مطالبة نصية. من ناحية أخرى، تتطلب NST صورتين (المحتوى والأسلوب) كمدخلات. يمكن رؤية التقاطع الحديث بين هذه المجالات في النماذج متعددة الوسائط التي يمكنها فهم كل من النص والصور.
- الترجمة من صورة إلى صورة: هذه فئة أوسع نطاقًا، وغالبًا ما تكون مدعومة بشبكات GAN (مثل Pix2Pix أو CycleGAN)، والتي تتعلم التحويل من صورة مدخلات إلى صورة مخرجات (على سبيل المثال، تحويل صورة القمر الصناعي إلى خريطة). في حين أن NST هو شكل من أشكال الترجمة من صورة إلى صورة، إلا أنه يركز بشكل خاص على فصل ونقل المحتوى والأسلوب، في حين أن الطرق الأخرى قد تتعلم تحويلات أكثر تعقيدًا.
يمكن أن يوفر فهم مبادئ استخراج الملامح في نماذج الرؤية الحديثة، مثل Ultralytics YOLO11، رؤى حول كيفية تمييز هذه التقنيات بين ماهية الكائن (المحتوى) وكيفية ظهوره (النمط). تعمل المنصات مثل Ultralytics HUB على تبسيط عملية تدريب النماذج المخصصة التي يمكن استخدامها في مجموعة متنوعة من مهام الرؤية.