مسرد المصطلحات

النزول المتدرج

اكتشف كيف يحسّن Gradient Descent Descent نماذج الذكاء الاصطناعي مثل Ultralytics YOLO، مما يتيح تنبؤات دقيقة في المهام بدءاً من الرعاية الصحية وحتى السيارات ذاتية القيادة.

نزول التدرج هو خوارزمية تحسين أساسية في قلب معظم نماذج التعلم الآلي (ML) ونماذج التعلم العميق. هدفها الأساسي هو تقليل خطأ النموذج عن طريق تعديل معلماته الداخلية بشكل متكرر. تخيل أنك تقف على جبل ضبابي وتحاول العثور على أدنى نقطة. سوف تنظر حول قدميك لترى أي اتجاه ينحدر إلى الأسفل أكثر انحدارًا وتتخذ خطوة في هذا الاتجاه. بتكرار هذه العملية، ستصل في النهاية إلى الوادي. في التعلّم الآلي، "الجبل" هو دالة الخسارة، و"الاتجاه" هو التدرج السالب لدالة الخسارة، و"حجم الخطوة" هو معدل التعلّم.

كيف يعمل النسب المتدرج

تتضمن عملية تدريب الشبكة العصبية إيجاد المجموعة المثلى من أوزان النموذج التي تؤدي إلى أقل خطأ ممكن، أو الخسارة. يعمل نظام "نزول التدرج" على أتمتة هذا البحث. تبدأ العملية بحساب التدرج - وهو مقياس لمدى تغير الخسارة بالنسبة لكل وزن. يتم إجراء هذا الحساب عادةً باستخدام خوارزمية التدرج العكسي. يتم بعد ذلك تحديث الأوزان عن طريق اتخاذ خطوة صغيرة في الاتجاه المعاكس للتدرج، مما يؤدي فعليًا إلى التحرك "لأسفل" على سطح الخسارة. تستمر هذه العملية التكرارية للعديد من الحقب الزمنية حتى يتقارب أداء النموذج ويتم تقليل الخسارة. ويُعد حجم كل خطوة عاملاً حاسمًا يحدده معدل التعلم، وهو إعداد رئيسي في ضبط المعلمة الفائقة. يمكن العثور على نظرة عامة مفصلة عن هذه العملية في مصادر مثل ملاحظات الدورة التدريبية CS231n في جامعة ستانفورد.

أنواع النزول المتدرج

هناك ثلاثة أشكال رئيسية لنسب التدرج، ويختلف كل منها في مقدار البيانات المستخدمة لحساب التدرج لكل تحديث للوزن:

  • نزول التدرج الدفعي (BGD): يحسب التدرج باستخدام مجموعة بيانات التدريب بأكملها. يوفر هذا النهج تدرجًا مستقرًا ودقيقًا، لكنه مكلف جدًا من الناحية الحسابية وكثيف الذاكرة، مما يجعله غير عملي لمجموعات البيانات الكبيرة مثل ImageNet.
  • تسلسل التدرج العشوائي (SGD): تقوم بتحديث الأوزان بعد معالجة عينة بيانات واحدة فقط يتم اختيارها عشوائيًا. وهو أسرع بكثير وأقل استهلاكًا للذاكرة من BGD، لكن التحديثات تكون صاخبة، مما يؤدي إلى مسار تقارب أكثر عشوائية. يمكن أن تساعد هذه العشوائية في بعض الأحيان النموذج على الهروب من الحد الأدنى المحلي الضعيف.
  • نزول التدرج على دفعات مصغرة: يحقق توازنًا من خلال حساب التدرج على مجموعة فرعية عشوائية صغيرة ("دفعة صغيرة") من البيانات، عادةً ما بين 32 و256 عينة. هذا هو النهج الأكثر شيوعًا المستخدم في التعلّم العميق الحديث لأنه يجمع بين كفاءة SGD واستقرار BGD. تستخدم أطر العمل مثل PyTorch و TensorFlow هذه الطريقة افتراضيًا في محسناتها. للحصول على مقارنة متعمقة، راجع هذه النظرة العامة على خوارزميات النسب المتدرجة.

نزول التدرج مقابل المفاهيم ذات الصلة

من المهم التمييز بين النسب المتدرج والعديد من المصطلحات ذات الصلة:

  • خوارزميات التحسين: نزول التدرج هو المفهوم التأسيسي لعائلة من خوارزميات التحسين. المُحسِّنات الأكثر تقدمًا، مثل مُحسِّن آدم أو RMSprop، هي اختلافات تكيفية تضبط معدل التعلم لكل معلمة على حدة، مما يؤدي غالبًا إلى تقارب أسرع. يمكنك العثور على ورقة آدم الأصلية على arXiv.
  • الانتشار الخلفي: الانتشار الخلفي ونسب التدرج هما عمليتان مختلفتان ولكنهما مترابطتان. الانتشار الخلفي هو الخوارزمية التي تحسب بكفاءة تدرجات دالة الخسارة فيما يتعلق بأوزان الشبكة. وانتساب التدرج هو الخوارزمية التي تستخدم هذه التدرجات لتحديث الأوزان.
  • دالة الخسارة: تُحدّد دالة الخسارة الهدف الذي يهدف النسب المتدرج إلى تصغيره. ويؤدي اختيار دالة الخسارة (على سبيل المثال، الانتروبيا المتقاطعة لتصنيف الصور) إلى إنشاء مشهد الخطأ المحدد الذي يتنقل فيه المُحسِّن.

التطبيقات الواقعية

النسب المتدرجة هو المحرك الذي يدعم تدريب عدد لا يحصى من نماذج الذكاء الاصطناعي.

  1. تدريب نماذج الكشف عن الكائنات: عندما يتم تدريب نموذج Ultralytics YOLO للكشف عن الأجسام على مجموعة بيانات واسعة النطاق مثل COCO، يتم استخدام نزول التدرج على دفعات صغيرة في كل تكرار. يتنبأ النموذج بالمربعات المحدودة، ويتم حساب الخسارة بناءً على الخطأ، ويقوم "نزول التدرج" بتعديل ملايين الأوزان في جميع أنحاء العمود الفقري للنموذج ورأسه لتحسين الدقة. يمكن إدارة سير العمل بأكمله وتوسيع نطاقه باستخدام منصات مثل Ultralytics HUB.
  2. نماذج لغة التدريب: في معالجة اللغات الطبيعية (NLP)، يتم تدريب نماذج مثل نموذج BERT على مهام مثل تحليل المشاعر. ويقلل النسب المتدرج من دالة الخسارة التي تقيس الفرق بين المشاعر المتوقعة للنموذج والتسمية الحقيقية، مما يمكّن النموذج من تعلم الفروق الدقيقة في اللغة البشرية من مجموعة نصوص ضخمة. وتوفر مجموعة ستانفورد للبرمجة اللغوية العصبية أبحاثاً مستفيضة في هذا المجال.

التحديات والاعتبارات

على الرغم من قوتها، إلا أن نزول التدرج لا يخلو من التحديات. فالخوارزمية يمكن أن تتعثر في نقاط الحد الأدنى المحلية - وهي ليست أدنى نقطة مطلقة على سطح الخسارة. في الشبكات العميقة جدًا، يمكن أن تعاني أيضًا من مشاكل التدرج المتلاشي أو التدرج المتفجر، حيث يصبح التدرج صغيرًا جدًا أو كبيرًا جدًا لتحديث الأوزان بشكل فعال. يعد الاختيار الدقيق لمعدل التعلم، واختيار مُحسِّن قوي، وتقنيات مثل تطبيع الدُفعات أمرًا بالغ الأهمية لنجاح التدريب، كما هو مفصل في دليل نصائح تدريب النماذج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة