مسرد المصطلحات

تلاشي التدرج

اكتشف مشكلة تلاشي التدرج في التعلم العميق، وتأثيرها على الشبكات العصبية، والحلول الفعالة مثل ReLU و ResNets وغيرها.

تعد مشكلة تلاشي التدرج تحديًا شائعًا يواجه أثناء تدريب الشبكات العصبية العميقة. يحدث ذلك عندما تصبح التدرجات، وهي الإشارات المستخدمة لتحديث أوزان الشبكة عبر الانتشار الخلفي، صغيرة للغاية عند انتشارها من طبقة الإخراج مرة أخرى إلى الطبقات الأولية. عندما تقترب هذه التدرجات من الصفر، لا يتم تحديث أوزان الطبقات الأولية بشكل فعال، أو لا يتم تحديثها على الإطلاق. يؤدي هذا بشكل أساسي إلى إيقاف عملية التعلم لتلك الطبقات، مما يمنع نموذج التعلم العميق من التقارب إلى حل أمثل والتعلم من البيانات.

ما الذي يسبب تلاشي التدرجات؟

يكمن السبب الرئيسي للتدرجات المتلاشية في طبيعة بعض دوال التنشيط وعمق الشبكة نفسها.

دوال التنشيط: تقوم دوال التنشيط التقليدية مثل دوال Sigmoid و الظل الزائدي (tanh) بضغط مدخلاتها في نطاق إخراج صغير جدًا. مشتقات هذه الدوال صغيرة. أثناء الانتشار الخلفي، يتم ضرب هذه المشتقات الصغيرة معًا عبر العديد من الطبقات. كلما زاد عدد الطبقات في الشبكة، زاد ضرب هذه الأرقام الصغيرة، مما يتسبب في تقلص التدرج النهائي بشكل كبير نحو الصفر.
البنيات العميقة: تكون المشكلة واضحة بشكل خاص في الشبكات العميقة جدًا، بما في ذلك الشبكات العصبية المتكررة (RNNs) المبكرة، حيث تنتشر التدرجات للخلف عبر العديد من الخطوات الزمنية. تتضمن كل خطوة عملية ضرب، والتي يمكن أن تقلل من إشارة التدرج على مدى تسلسلات طويلة.

التدرجات المتلاشية مقابل التدرجات المتفجرة

التدرجات المتلاشية هي عكس التدرجات المتفجرة. ترتبط كلتا المشكلتين بتدفق التدرجات أثناء التدريب، ولكن لهما تأثيرات مختلفة:

تلاشي التدرجات: تتقلص التدرجات بشكل كبير حتى تصبح صغيرة جدًا بحيث لا يمكنها تسهيل أي تعلم ذي معنى في الطبقات المبكرة من الشبكة.
التدرجات المتفجرة: تنمو التدرجات بشكل كبير جدًا بشكل لا يمكن السيطرة عليه، مما يؤدي إلى تحديثات كبيرة في الأوزان تتسبب في أن يصبح النموذج غير مستقر ويفشل في التقارب.

يعد معالجة كلتا المشكلتين أمرًا بالغ الأهمية لتدريب نماذج الذكاء الاصطناعي العميقة والقوية بنجاح.

الحلول واستراتيجيات التخفيف

تم تطوير العديد من التقنيات لمكافحة مشكلة تلاشي التدرج:

وظائف تنشيط أفضل (Better Activation Functions): يعد استبدال Sigmoid و tanh بوظائف مثل وحدة ReLU الخطية المصححة (Rectified Linear Unit) أو متغيراتها (Leaky ReLU، GELU) حلاً شائعًا. مشتق ReLU هو 1 للمدخلات الموجبة، مما يمنع التدرج من الانكماش.
بنى متقدمة (Advanced Architectures): تم تصميم البنى خصيصًا للتخفيف من هذه المشكلة. تقدم الشبكات المتبقية (Residual Networks (ResNets)) "اتصالات تخطي (skip connections)" تسمح للتدرج بتجاوز الطبقات، مما يوفر مسارًا أقصر أثناء الانتشار العكسي. بالنسبة للبيانات التسلسلية، تستخدم شبكات الذاكرة طويلة المدى (Long Short-Term Memory (LSTM)) و وحدة التكرار البوابية (Gated Recurrent Unit (GRU)) آليات البوابة للتحكم في تدفق المعلومات والتدرجات، كما هو مفصل في ورقة LSTM الأصلية و ورقة GRU.
تهيئة الأوزان: يمكن أن تساعد التهيئة المناسبة لأوزان الشبكة، باستخدام طرق مثل تهيئة He أو Xavier، في ضمان بدء التدرجات ضمن نطاق معقول. يمكن العثور على مزيد من المعلومات حول هذا في المناقشات حول أفضل ممارسات التعلم العميق.
تطبيع الدُفعة (Batch Normalization): يساعد تطبيق تطبيع الدُفعة (batch normalization) في تطبيع المدخلات لكل طبقة، مما يثبت الشبكة ويقلل الاعتماد على التهيئة، وبالتالي التخفيف من مشكلة تلاشي التدرج.

التأثير والأمثلة الواقعية

كان التغلب على مشكلة تلاشي التدرجات إنجازًا حاسمًا للذكاء الاصطناعي الحديث.

معالجة اللغة الطبيعية (NLP): فشلت شبكات RNN المبكرة في مهام مثل الترجمة الآلية و تحليل المشاعر (sentiment analysis) المطول لأنها لم تستطع تذكر المعلومات من بداية الجملة الطويلة. سمح اختراع LSTMs و GRUs للنماذج بالتقاط هذه التبعيات طويلة المدى. تستخدم البنى الحديثة مثل Transformer الانتباه الذاتي (self-attention) لتجاوز مشكلة التدرج التسلسلي تمامًا، مما يؤدي إلى أداء متطور.
الرؤية الحاسوبية: كان يُعتقد ذات مرة أن مجرد جعل الشبكات العصبونية الالتفافية (CNNs) أعمق لن يحسن الأداء بسبب صعوبات التدريب مثل تضاؤل التدرجات. أثبت إدخال بنى ResNet أن هذا خطأ، مما أتاح شبكات بمئات الطبقات. أدى ذلك إلى تقدم كبير في تصنيف الصور و تقسيم الصور و اكتشاف الكائنات، مما شكل الأساس لنماذج مثل Ultralytics YOLO. غالبًا ما يتضمن تدريب هذه النماذج مجموعات بيانات رؤية حاسوبية كبيرة ويمكن إدارتها على منصات مثل Ultralytics HUB.

تلاشي التدرج

تدريب نماذج Ultralytics YOLO لتبسيط سير العمل عبر الصناعات

حل ترخيص مرن للمؤسسات لدعم ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

ما الذي يسبب تلاشي التدرجات؟

التدرجات المتلاشية مقابل التدرجات المتفجرة

الحلول واستراتيجيات التخفيف

التأثير والأمثلة الواقعية

اقرأ المزيد في هذه الفئة

يعمل الذكاء الاصطناعي البصري على تشغيل أنظمة مراقبة انتباه السائق

من البتات إلى الكيوبتات: كيف يعمل التحسين الكمي على إعادة تشكيل الذكاء الاصطناعي

دليل سريع للمبتدئين حول كيفية تدريب نموذج الذكاء الاصطناعي

انضم إلى مجتمع Ultralytics