تمثل نماذج الانتشار فئة قوية من النماذج التوليدية ضمن التعلم العميق (DL) التي اكتسبت شهرة كبيرة، لا سيما في إنشاء صور عالية الجودة والصوت وأنواع البيانات المعقدة الأخرى. تعمل هذه النماذج، المستوحاة من مفاهيم الديناميكا الحرارية، من خلال إضافة ضوضاء إلى البيانات بشكل منهجي ثم تعلم عكس هذه العملية لتوليد عينات بيانات جديدة من الضوضاء الخالصة. وقد جعلتها قدرتها على إنتاج مخرجات متنوعة وواقعية حجر الزاوية في الذكاء الاصطناعي الحديث.
كيف تعمل نماذج الانتشار
تنطوي الفكرة الأساسية وراء نماذج الانتشار على عمليتين: عملية أمامية (الانتشار) وعملية عكسية (إزالة الضبابية).
- العملية الأمامية: تأخذ هذه المرحلة بيانات حقيقية (مثل صورة من بيانات التدريب) وتضيف تدريجيًا كميات صغيرة من التشويش العشوائي على عدة خطوات. في نهاية المطاف، بعد خطوات كافية، لا يمكن تمييز الصورة الأصلية عن الضوضاء الخالصة (مثل التشويش على شاشة تلفاز قديمة). هذه العملية ثابتة ولا تتضمن التعلم.
- العملية العكسية: هذا هو المكان الذي يحدث فيه التعلم. يتم تدريب النموذج، وهو عادةً بنية شبكة عصبية مثل U-Net، على إلغاء إضافة الضوضاء خطوة بخطوة. بدءًا من الضوضاء العشوائية، يقوم النموذج بإزالة الضوضاء المتوقعة بشكل متكرر، ويقوم بتحسين العينة تدريجيًا حتى تشبه البيانات من توزيع التدريب الأصلي. تسمح عملية إزالة الضوضاء المكتسبة هذه للنموذج بتوليد بيانات جديدة تمامًا. وقد أرست الأبحاث الرئيسية مثل نماذج تقليل التشويش الاحتمالية لإزالة الضوضاء (DDPM) الكثير من الأسس للتطبيقات الحديثة.
يتضمن التدريب تعليم النموذج التنبؤ بدقة بالتشويش الذي تمت إضافته في كل خطوة من العملية الأمامية. من خلال تعلم ذلك، يتعلم النموذج ضمنيًا البنية الأساسية للبيانات.
المفاهيم الأساسية والتكييف
هناك عدة مفاهيم أساسية في نماذج الانتشار:
- الخطوات الزمنية: تحدث الإضافة والإزالة التدريجية للتشويش على سلسلة من الخطوات الزمنية المنفصلة. يحتاج النموذج غالبًا إلى معرفة الخطوة الزمنية التي يعالجها حاليًا.
- جدول الضوضاء: يحدد هذا مقدار الضوضاء المضافة في كل خطوة في العملية الأمامية. يمكن أن تؤثر الجداول الزمنية المختلفة على جودة التدريب والتوليد.
- التكييف: يمكن توجيه نماذج الانتشار لتوليد مخرجات محددة. على سبيل المثال، في توليد تحويل النص إلى صورة، يتم تكييف النموذج على أوصاف نصية (مطالبات) لإنشاء صور مقابلة. وغالباً ما يتضمن ذلك آليات مثل الانتباه المتبادل.
نماذج الانتشار مقابل النماذج التوليدية الأخرى
تختلف نماذج الانتشار اختلافًا كبيرًا عن النُهج التوليدية الشائعة الأخرى مثل شبكات الخصومة التوليدية (GANs):
- استقرار التدريب: توفر نماذج الانتشار عمومًا تدريبًا أكثر استقرارًا مقارنةً بشبكات GAN، والتي تنطوي على لعبة خصومة معقدة بين المولد والمميز الذي قد يفشل أحيانًا في التقارب.
- جودة العينة وتنوعها: غالبًا ما تتفوق نماذج الانتشار في إنتاج عينات عالية الدقة والتنوع، وأحيانًا تتفوق على شبكات الشبكة العالمية في بعض المعايير، ولكن غالبًا ما يكون ذلك على حساب زمن استنتاج أعلى.
- سرعة الاستدلال: تقليدياً، يتطلب توليد عينة باستخدام نموذج الانتشار العديد من خطوات إزالة الضوضاء، مما يجعل الاستدلال أبطأ من شبكات الشبكة العالمية. ومع ذلك، فإن البحث في تقنيات أخذ العينات الأسرع يسد هذه الفجوة بسرعة. ويجري أيضًا استكشاف تقنيات مثل تقطير المعرفة.
التطبيقات الواقعية
تقود نماذج الانتشار الابتكار في مختلف المجالات:
- توليد صور عالية الدقة: تستخدم نماذج مثل Stable Diffusion و Midjourney و Imagen من Google تقنيات الانتشار لإنشاء صور واقعية وفنية مذهلة من المطالبات النصية.
- تحرير الصور والرسم: يمكنهما ملء الأجزاء المفقودة من الصور بذكاء (الرسم الداخلي) أو تعديل الصور الموجودة بناءً على التعليمات (مثل تغيير الأنماط وإضافة عناصر)، مما يتيح أدوات إبداعية قوية مثل Adobe Firefly.
- توليف الصوت: تُستخدم نماذج الانتشار لتوليد كلام وموسيقى ومؤثرات صوتية واقعية، كما يظهر في مشاريع مثل AudioLDM.
- الاكتشافات العلمية: تظهر تطبيقات في مجالات مثل اكتشاف الأدوية لتوليد بنى جزيئية جديدة وفي الفيزياء لمحاكاة الأنظمة المعقدة.
- تعزيز البيانات: يمكن أن يؤدي توليد البيانات الاصطناعية عبر نماذج الانتشار إلى تكملة بيانات التدريب الحقيقية لمهام مثل اكتشاف الأجسام أو تجزئة الصور، مما قد يحسن من متانة نماذج مثل Ultralytics YOLO.