تدرج النزول
اكتشف كيف يعمل انحدار التدرج على تحسين نماذج الذكاء الاصطناعي مثل Ultralytics YOLO، مما يتيح تنبؤات دقيقة في مهام تتراوح من الرعاية الصحية إلى السيارات ذاتية القيادة.
يعد الانحدار التدريجي خوارزمية تحسين أساسية في قلب معظم نماذج التعلم الآلي (ML) و التعلم العميق. هدفه الأساسي هو تقليل خطأ النموذج عن طريق تعديل معلماته الداخلية بشكل متكرر. تخيل أنك تقف على جبل ضبابي وتحاول العثور على أدنى نقطة. ستنظر حول قدميك لترى أي اتجاه ينحدر إلى الأسفل بشكل أكثر حدة وتتخذ خطوة في هذا الاتجاه. بتكرار هذه العملية، ستصل في النهاية إلى واد. في التعلم الآلي، "الجبل" هو دالة الخسارة، و "الاتجاه" هو التدرج السلبي لدالة الخسارة، و "حجم الخطوة" هو معدل التعلم.
كيف يعمل نزول التدرج
تتضمن عملية التدريب لـ شبكة عصبية إيجاد المجموعة المثلى من أوزان النموذج التي تؤدي إلى أقل خطأ ممكن، أو خسارة. تعمل تقنية Gradient Descent على أتمتة هذا البحث. تبدأ العملية بحساب التدرج - وهو مقياس لمدى تغير الخسارة فيما يتعلق بكل وزن. يتم إجراء هذا الحساب عادةً باستخدام خوارزمية الانتشار الخلفي. ثم يتم تحديث الأوزان عن طريق اتخاذ خطوة صغيرة في الاتجاه المعاكس للتدرج، والانتقال بشكل فعال "إلى أسفل" على سطح الخسارة. تستمر هذه العملية التكرارية لعدة حقبات حتى يتقارب أداء النموذج ويتم تقليل الخسارة. حجم كل خطوة هو عامل حاسم تحدده معدل التعلم، وهو إعداد رئيسي في ضبط المعلمات الفائقة. يمكن العثور على نظرة عامة مفصلة لهذه العملية في مصادر مثل ملاحظات دورة ستانفورد CS231n.
أنواع تدرج النزول
هناك ثلاثة اختلافات رئيسية في نزول التدرج، يختلف كل منها في مقدار البيانات المستخدمة لحساب التدرج لكل تحديث للوزن:
- انحدار التدرج الدفعي (BGD): يحسب التدرج باستخدام مجموعة بيانات التدريب بأكملها. يوفر هذا النهج تدرجًا مستقرًا ودقيقًا، ولكنه مكلف للغاية من الناحية الحسابية ويستهلك الكثير من الذاكرة، مما يجعله غير عملي لمجموعات البيانات الكبيرة مثل ImageNet.
 - تدرج تنازلي تصادمي (SGD): يقوم بتحديث الأوزان بعد معالجة عينة بيانات واحدة تم اختيارها عشوائيًا. إنه أسرع بكثير وأقل استهلاكًا للذاكرة من BGD، ولكن التحديثات صاخبة، مما يؤدي إلى مسار تقارب أكثر تقلبًا. يمكن أن تساعد هذه العشوائية النموذج في بعض الأحيان على الهروب من الحد الأدنى المحلي الضعيف.
 - النزول التدريجي المصغر للدُفعة: يحقق توازنًا عن طريق حساب التدرج على مجموعة فرعية صغيرة وعشوائية ("دفعة صغيرة") من البيانات، عادةً ما بين 32 و 256 عينة. هذا هو النهج الأكثر شيوعًا المستخدم في التعلم العميق الحديث لأنه يجمع بين كفاءة SGD واستقرار BGD. تستخدم أطر العمل مثل PyTorch و TensorFlow هذه الطريقة افتراضيًا في مُحسِّناتها. للحصول على مقارنة متعمقة، راجع نظرة عامة على خوارزميات النزول التدريجي.
 
الانحدار التدريجي مقابل المفاهيم ذات الصلة
من المهم التمييز بين نزول التدرج (Gradient Descent) وعدد من المصطلحات ذات الصلة:
- خوارزميات التحسين: التدرج التنازلي هو المفهوم الأساسي لعائلة من خوارزميات التحسين. المحسنات الأكثر تقدمًا، مثل محسِّن Adam أو RMSprop، هي اختلافات تكيفية تضبط معدل التعلم لكل معلمة على حدة، مما يؤدي غالبًا إلى تقارب أسرع. يمكنك العثور على ورقة Adam الأصلية على arXiv.
 - الانتشار العكسي: الانتشار العكسي والتدرج اللوني هما عمليتان متميزتان ولكنهما متصلتان. الانتشار العكسي هو الخوارزمية التي تحسب بكفاءة تدرجات دالة الخسارة فيما يتعلق بأوزان الشبكة. التدرج اللوني هو الخوارزمية التي تستخدم بعد ذلك هذه التدرجات لتحديث الأوزان.
 - دالة الخسارة: تحدد دالة الخسارة الهدف الذي يهدف إليه Gradient Descent لتقليله إلى الحد الأدنى. إن اختيار دالة الخسارة (مثل Cross-Entropy لـ تصنيف الصور) يخلق مشهد الخطأ المحدد الذي يتنقل فيه المحسن.
 
تطبيقات واقعية
الانحدار التدريجي هو المحرك الذي يشغل تدريب عدد لا يحصى من نماذج الذكاء الاصطناعي.
- تدريب نماذج الكشف عن الكائنات: عندما يتم تدريب نموذج Ultralytics YOLO لـ الكشف عن الكائنات (object detection) على مجموعة بيانات واسعة النطاق مثل COCO، يتم استخدام الانحدار التدريجي للدُفعات الصغيرة في كل تكرار. يتوقع النموذج مربعات إحاطة (bounding boxes)، ويتم حساب الخسارة بناءً على الخطأ، ويقوم الانحدار التدريجي بتعديل ملايين الأوزان في جميع أنحاء العمود الفقري (backbone) ورأس النموذج لتحسين الدقة. يمكن إدارة وتوسيع نطاق سير العمل هذا بالكامل باستخدام منصات مثل Ultralytics HUB.
 - تدريب نماذج اللغة: في معالجة اللغات الطبيعية (NLP)، يتم تدريب نماذج مثل BERT لمهام مثل تحليل المشاعر. يقلل الانحدار التدريجي من دالة الخسارة التي تقيس الفرق بين المشاعر المتوقعة للنموذج والتسمية الحقيقية، مما يمكّن النموذج من تعلم الفروق الدقيقة في اللغة البشرية من مجموعات نصوص واسعة. تقدم مجموعة ستانفورد لمعالجة اللغات الطبيعية (Stanford NLP Group) أبحاثًا مكثفة في هذا المجال.
 
التحديات والاعتبارات
على الرغم من قوته، إلا أن نزول التدرج (Gradient Descent) لا يخلو من التحديات. يمكن أن تعلق الخوارزمية في الحد الأدنى المحلي - وهي وديان ليست أدنى نقطة مطلقة على سطح الخسارة. في الشبكات العميقة جدًا، يمكن أن تعاني أيضًا من مشاكل تلاشي التدرج (vanishing gradient) أو انفجار التدرج (exploding gradient)، حيث يصبح التدرج صغيرًا جدًا أو كبيرًا جدًا بحيث لا يمكنه تحديث الأوزان بشكل فعال. يعد الاختيار الدقيق لمعدل التعلم واختيار مُحسِّن قوي وتقنيات مثل تسوية الدُفعات (batch normalization) أمرًا بالغ الأهمية للتدريب الناجح، كما هو مفصل في دليل نصائح تدريب النموذج (model training tips guide) الخاص بنا.