تدرج التلاشي
اكتشف مشكلة التدرج المتلاشي في التعلم العميق، وتأثيرها على الشبكات العصبية، والحلول الفعالة مثل ReLU وResNets وغيرها.
تعد مشكلة التدرج المتلاشي تحديًا شائعًا تتم مواجهته أثناء تدريب الشبكات العصبية العميقة. وهي تحدث عندما تصبح التدرجات، وهي الإشارات المستخدمة لتحديث أوزان الشبكة عبر الترحيل العكسي، صغيرة للغاية عندما يتم نشرها من طبقة الخرج إلى الطبقات الأولية. عندما تقترب هذه التدرجات من الصفر، لا يتم تحديث أوزان الطبقات الأولية بشكل فعال، أو لا يتم تحديثها على الإطلاق. يؤدي هذا بشكل أساسي إلى إيقاف عملية التعلّم لتلك الطبقات، مما يمنع نموذج التعلّم العميق من الوصول إلى الحل الأمثل والتعلّم من البيانات.
ما الذي يسبب اختفاء التدرجات؟
يكمن السبب الرئيسي لتلاشي التدرجات في طبيعة بعض دوال التنشيط وعمق الشبكة نفسها.
- دوال التنشيط: تضغط دوال التنشيط التقليدية مثل الدوال السهمية ودوال الظل الزائدي (tanh) على مدخلاتها في نطاق مخرجات صغير جدًا. تكون مشتقات هذه الدوال صغيرة. أثناء الترحيل العكسي، يتم ضرب هذه المشتقات الصغيرة معًا عبر العديد من الطبقات. كلما زاد عدد الطبقات في الشبكة، كلما زاد عدد هذه الأعداد الصغيرة المضاعفة، مما يؤدي إلى تقلص التدرج النهائي أسيًا نحو الصفر.
- البنى العميقة: تبرز المشكلة بشكل خاص في الشبكات العميقة جدًا، بما في ذلك الشبكات العصبية المتكررة المبكرة (RNNs)، حيث يتم نشر التدرجات عبر العديد من الخطوات الزمنية. تتضمن كل خطوة عملية ضرب، مما قد يقلل من إشارة التدرج على مدى تسلسلات طويلة.
التدرجات المتلاشية مقابل التدرجات المتفجرة
التدرجات المتلاشية هي عكس التدرجات المتفجرة. وترتبط كلتا المشكلتين بتدفق التدرجات أثناء التدريب، ولكن لهما تأثيرات مختلفة:
- التدرجات المتلاشية: تتقلص التدرجات أضعافًا مضاعفة حتى تصبح صغيرة جدًا لتسهيل أي تعلم ذي معنى في الطبقات الأولى من الشبكة.
- التدرجات المتفجرة: تنمو التدرجات بشكل لا يمكن السيطرة عليه، مما يؤدي إلى تحديثات وزن هائلة تتسبب في عدم استقرار النموذج وفشل في التقارب.
إن معالجة كلتا المشكلتين أمر بالغ الأهمية للنجاح في تدريب نماذج ذكاء اصطناعي عميقة وقوية.
الحلول واستراتيجيات التخفيف من المخاطر
تم تطوير العديد من التقنيات لمكافحة مشكلة تلاشي التدرج:
تأثير العالم الحقيقي وأمثلة على ذلك
كان التغلب على التدرجات المتلاشية إنجازًا حاسمًا للذكاء الاصطناعي الحديث.
- معالجة اللغة الطبيعية (NLP): فشلت الشبكات الشبكية الشبكية العصبية العصبية المبكرة في مهام مثل الترجمة الآلية وتحليل المشاعر الطويلة لأنها لم تستطع تذكر المعلومات من بداية الجملة الطويلة. وقد سمح اختراع LSTMs و GRUs للنماذج بالتقاط هذه التبعيات بعيدة المدى. وتستخدم البنى الحديثة مثل المحولات الانتباه الذاتي لتجاوز مشكلة التدرج المتسلسل تماماً، مما يؤدي إلى أداء متطور.
- الرؤية الحاسوبية: كان يُعتقد في السابق أن مجرد تعميق الشبكات العصبية التلافيفية (CNNs) لن يحسن الأداء بسبب صعوبات التدريب مثل تلاشي التدرجات. وقد أثبت إدخال معماريات الشبكات العصبية التلافيفية (ResNet ) خطأ هذا الاعتقاد، مما أتاح إمكانية إنشاء شبكات بمئات الطبقات. وقد أدى ذلك إلى حدوث تقدم كبير في تصنيف الصور وتجزئة الصور واكتشاف الأجسام، مما شكل الأساس لنماذج مثل Ultralytics YOLO. غالبًا ما يتضمن تدريب هذه النماذج مجموعات بيانات كبيرة للرؤية الحاسوبية ويمكن إدارتها على منصات مثل Ultralytics HUB.