عزز أداء التعلُّم العميق باستخدام تطبيع الدُفعات! تعلّم كيف تعزز هذه التقنية من سرعة التدريب والثبات والدقة في نماذج الذكاء الاصطناعي.
تطبيع الدُفعات هو تقنية تُستخدم على نطاق واسع في التعلُّم العميق لتحقيق الاستقرار في عملية التعلُّم وتسريع تدريب الشبكات العصبية العميقة بشكل كبير. قدمها سيرجي إيوف وكريستيان زيجيدي في ورقتهم البحثية لعام 2015"تطبيع الدُفعات: تسريع تدريب الشبكات العميقة عن طريق الحد من إزاحة المتغيرات الداخلية"، وهي تعالج المشكلة التي يتغير فيها توزيع المدخلات إلى الطبقات العميقة في الشبكة أثناء التدريب، والمعروفة باسم إزاحة المتغيرات الداخلية. من خلال تطبيع المدخلات لكل طبقة لكل دفعة صغيرة، يساعد تطبيع الدُفعات في الحفاظ على توزيع أكثر استقرارًا لقيم التنشيط، مما يؤدي إلى تقارب أكثر سلاسة وسرعة.
أثناء التدريب، تقوم عملية تطبيع الدُفعات بتوحيد المدخلات إلى طبقة لكل دفعة مصغرة. ويتضمن ذلك حساب متوسط وتباين التنشيطات عبر الدفعة المصغرة ثم تطبيع هذه التنشيطات. والأهم من ذلك أن هذه التقنية تقدم أيضًا معلمتين قابلتين للتعلم لكل قناة تنشيط - معلمة مقياس (جاما) ومعلمة إزاحة (بيتا). تسمح هاتان المعلمتان للشبكة بتعلم المقياس والمتوسط الأمثل للمدخلات المطبعة، مما يمنحها بشكل أساسي المرونة للتراجع عن التطبيع إذا ثبت أن ذلك مفيد للتعلم. تساعد هذه العملية في مكافحة مشاكل مثل التدرجات المتلاشية والتدرجات المتفجرة من خلال الحفاظ على التنشيطات ضمن نطاق معقول. أثناء الاستدلال، يتم تثبيت المتوسط والتباين، وعادةً ما يتم ذلك باستخدام إحصائيات السكان المقدرة أثناء التدريب.
يوفر تطبيق تطبيع الدُفعات في الشبكات العصبية العديد من المزايا الرئيسية:
يُعد تطبيع الدُفعات مكونًا أساسيًا في العديد من نماذج التعلُّم العميق الحديثة، خاصةً في مجال الرؤية الحاسوبية.
في حين أن تطبيع الدُفعات يُستخدم على نطاق واسع، توجد العديد من تقنيات التطبيع ذات الصلة، كل منها مناسب لسيناريوهات مختلفة:
من الاعتبارات الرئيسية للتطبيع الدفعي هو اعتماده على حجم الدفعة المصغرة أثناء التدريب. يمكن أن يتدهور الأداء إذا كان حجم الدفعة صغيرًا جدًا (على سبيل المثال، 1 أو 2)، حيث تصبح إحصائيات الدفعة تقديرات صاخبة لإحصائيات المجتمع الإحصائي. علاوةً على ذلك، يختلف السلوك بين التدريب (باستخدام إحصائيات الدُفعات) والاستدلال (باستخدام إحصائيات تعداد السكان التقديرية). أطر التعلم العميق القياسية مثل باي تورتش (torch.nn.BatchNorm2d
) و تينسورفلو (tf.keras.layers.BatchNormalization
) توفر تطبيقات قوية. على الرغم من البدائل، يظل تطبيع الدُفعات تقنية أساسية لتدريب العديد من نماذج التعلم العميق الحديثة بفعالية.