استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

تلاشي التدرج

تعرّف على كيفية إدارة مشكلة تضخم التدرجات في التعلم العميق لضمان تدريب مستقر لمهام مثل اكتشاف الكائنات، وتقدير الوضعية، والمزيد.

تُعد مشكلة تضخم التدرجات (Exploding gradients) من المشكلات الشائعة التي قد تحدث أثناء تدريب الشبكات العصبية العميقة. وهي تصف حالة تنمو فيها تدرجات دالة الخسارة بالنسبة لأوزان الشبكة بشكل كبير جدًا. يحدث هذا النمو السريع أثناء الانتشار الخلفي، وهي الخوارزمية المستخدمة لتحديث أوزان النموذج. عندما تتضخم التدرجات، فإنها تتسبب في تحديثات كبيرة للغاية لأوزان الشبكة العصبية، مما يؤدي إلى عملية تدريب غير مستقرة حيث يفشل النموذج في التعلم بفعالية من بيانات التدريب. يمكن أن يتسبب هذا التذبذب في تذبذب أداء النموذج بشكل كبير أو أن تصبح الخسارة NaN (ليست رقمًا)، مما يؤدي فعليًا إلى إيقاف عملية التدريب.

ما الذي يسبب تضخم التدرجات؟

السبب الرئيسي للتدرجات المتفجرة هو التأثير التراكمي لضرب الأرقام الكبيرة أثناء عملية الانتشار الخلفي، وهو أمر شائع بشكل خاص في هياكل الشبكات العميقة أو المتكررة. تشمل العوامل الرئيسية ما يلي:

  • تهيئة الوزن الضعيفة: إذا كانت أوزان النموذج الأولية كبيرة جدًا، فيمكنها تضخيم التدرجات أثناء انتشارها للخلف عبر طبقات الشبكة. مخططات التهيئة المناسبة ضرورية لمنع ذلك.
  • معدل تعلم مرتفع: يمكن أن يتسبب معدل التعلم الذي يتم تعيينه على مستوى عالٍ جدًا في قيام خوارزمية التحسين بإجراء تحديثات كبيرة بشكل مفرط للأوزان، وتجاوز القيم المثلى مما يؤدي إلى التباعد.
  • هندسة الشبكة (Network Architecture): الشبكات العصبية المتكررة (RNNs) معرضة بشكل خاص لأنها تطبق نفس الأوزان بشكل متكرر على مدى تسلسل طويل، مما قد يؤدي إلى تجميع الأخطاء الصغيرة في تدرجات كبيرة جدًا.

تقنيات لمنع تضخم التدرجات

يتم استخدام العديد من الاستراتيجيات الفعالة في التعلم العميق (DL) الحديث لمكافحة التدرجات المتفجرة وضمان التدريب المستقر.

  • تحديد قيمة التدرج: هذه هي التقنية الأكثر شيوعًا وفعالية. وهي تنطوي على تحديد عتبة محددة مسبقًا لقيم التدرج. إذا تجاوز التدرج هذه العتبة أثناء الانتشار الخلفي، فسيتم "اقتطاعه" أو تقليصه إلى الحد الأقصى المسموح به. هذا يمنع تحديثات الوزن من أن تصبح كبيرة جدًا.
  • تنظيم الأوزان (Weight Regularization): تضيف تقنيات مثل تنظيمي L1 و L2 جزاءً إلى دالة الخسارة بناءً على حجم الأوزان. هذا يثبط النموذج عن تعلم أوزان كبيرة بشكل مفرط، مما يساعد بدوره في الحفاظ على التحكم في التدرجات.
  • التطبيع المجمّع: من خلال تطبيع المدخلات لكل طبقة، يساعد التطبيع المجمّع على استقرار توزيع قيم التنشيط، مما يقلل من خطر خروج التدرجات عن السيطرة. إنه مكون قياسي في العديد من بنى الشبكات العصبونية التفافية (CNN) الحديثة.
  • تخفيض معدل التعلم (Lowering the Learning Rate): هناك طريقة بسيطة وفعالة تتمثل في تقليل معدل التعلم. يمكن القيام بذلك يدويًا أو باستخدام جدولة معدل التعلم، مما يقلل تدريجيًا من معدل التعلم أثناء التدريب. يعد الضبط الدقيق للمعلمات الفائقة (hyperparameter tuning) أمرًا أساسيًا.

التدرجات المتفجرة مقابل التدرجات المتلاشية

غالبًا ما تتم مناقشة التدرجات المتفجرة جنبًا إلى جنب مع التدرجات المتلاشية. في حين أن كلاهما يعيق تدريب الشبكات العميقة عن طريق تعطيل تدفق التدرج أثناء الانتشار الخلفي، إلا أنهما ظاهرتان متعاكستان:

  • تلاشي التدرجات: تنمو التدرجات بشكل كبير جدًا بشكل لا يمكن السيطرة عليه، مما يؤدي إلى تحديثات غير مستقرة وتباعد.
  • تلاشي التدرجات: تتقلص التدرجات بشكل صغير جدًا، مما يمنع بشكل فعال تحديثات الأوزان في الطبقات السابقة ويعيق عملية التعلم.

يعد معالجة مشكلات التدرج هذه أمرًا ضروريًا للتدريب الناجح للنماذج العميقة والقوية المستخدمة في الذكاء الاصطناعي (AI) الحديث، بما في ذلك تلك التي تم تطويرها وتدريبها باستخدام منصات مثل Ultralytics HUB. يمكنك العثور على المزيد من نصائح تدريب النموذج في وثائقنا.

أمثلة واقعية

يعد اكتشاف وإدارة التدرجات المتفجرة مصدر قلق عملي في العديد من تطبيقات الذكاء الاصطناعي.

  1. معالجة اللغة الطبيعية باستخدام الشبكات العصبية المتكررة (RNNs): عند تدريب شبكة عصبية متكررة (RNN) أو LSTM لمهام مثل الترجمة الآلية أو إنشاء النصوص، يجب على النموذج معالجة تسلسلات طويلة من النصوص. بدون تدابير مضادة مثل قص التدرج، يمكن أن تنفجر التدرجات بسهولة، مما يجعل من المستحيل على النموذج تعلم التبعيات طويلة المدى في النص. يستخدم الباحثون في مؤسسات مثل مجموعة ستانفورد لمعالجة اللغة الطبيعية هذه التقنيات بشكل روتيني.
  2. تدريب نماذج مخصصة للكشف عن الكائنات: أثناء تدريب نماذج رؤية الكمبيوتر العميقة مثل Ultralytics YOLO على مجموعة بيانات جديدة أو صعبة، يمكن أن تؤدي خيارات المعلمات الفائقة السيئة (مثل معدل التعلم المرتفع جدًا) إلى عدم استقرار التدريب وتفجير التدرجات. توفر أطر التعلم العميق الحديثة مثل PyTorch و TensorFlow، وهما الأساس لنماذج YOLO، وظائف مدمجة لمراقبة التدريب وتطبيق حلول مثل قص التدرج لضمان سلاسة عملية التدريب. هذا أمر بالغ الأهمية لتطوير نماذج قوية للتطبيقات في الروبوتات و التصنيع.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة