مسرد المصطلحات

نزول التدرج العشوائي (SGD)

اكتشف كيف يعمل التدرج العشوائي على تحسين نماذج التعلُّم الآلي من خلال تحسين نماذج التعلُّم الآلي، مما يتيح التدريب الفعّال لمجموعات البيانات الكبيرة ومهام التعلُّم العميق.

تُعد خوارزمية التدرج العشوائي (SGD) خوارزمية تحسين أساسية ومستخدمة على نطاق واسع في التعلم الآلي (ML). وهي طريقة تكرارية تُستخدم لتدريب النماذج من خلال تعديل معلماتها الداخلية، مثل الأوزان والانحيازات، لتقليل دالة الخسارة. على عكس طريقة "نزول التدرج" التقليدية، التي تعالج مجموعة البيانات بأكملها لكل تحديث، تقوم خوارزمية SGD بتحديث المعلمات باستخدام عينة تدريب واحدة فقط يتم اختيارها عشوائيًا. هذا النهج "العشوائي" يجعل عملية التدريب أسرع بكثير وأكثر قابلية للتطوير، وهو أمر مهم بشكل خاص عند العمل مع البيانات الضخمة. كما يمكن للتحديثات الصاخبة أن تساعد النموذج أيضًا على الهروب من الحدود الدنيا المحلية الضعيفة في مشهد الخطأ، ومن المحتمل أن تجد حلاً أفضل بشكل عام.

كيف يعمل نزول التدرج العشوائي

تتمثل الفكرة الأساسية وراء SGD في تقريب التدرج الحقيقي لدالة الخسارة، والذي يتم حسابه على مجموعة البيانات بأكملها، باستخدام تدرج الخسارة لعينة واحدة. على الرغم من أن هذا التدرج لعينة واحدة هو تقدير مشوش، إلا أنه رخيص من الناحية الحسابية، وفي المتوسط، يشير إلى الاتجاه الصحيح. تتضمن العملية تكرار دورة بسيطة من خطوتين لكل عينة تدريب:

  1. حساب التدرج: احسب تدرج دالة الخسارة فيما يتعلق بمعلمات النموذج لمثال تدريبي واحد.
  2. تحديث المعلمات: اضبط المعلمات في الاتجاه المعاكس للتدرج، مقيسًا بمعدل التعلم. هذا يحرك النموذج نحو حالة ذات خطأ أقل لتلك العينة المحددة.

تتكرر هذه الدورة للعديد من التمريرات على مجموعة البيانات بأكملها، والمعروفة باسم الحقب، مما يؤدي إلى تحسين أداء النموذج تدريجيًا. جعلت كفاءة SGD من كفاءة SGD حجر الزاوية في التعلم العميق الحديث (DL)، وهو مدعوم من قبل جميع الأطر الرئيسية مثل PyTorch و TensorFlow.

Sgd مقابل المُحسِّنات الأخرى

يُعد SGD واحدًا من عدة طرق تحسين قائمة على التدرج، ولكل منها مفاضلاته الخاصة.

  • نزول التدرج الدفعي: تحسب هذه الطريقة التدرج باستخدام مجموعة بيانات التدريب بأكملها. وهي توفر مسارًا مستقرًا ومباشرًا إلى الحد الأدنى، ولكنها بطيئة للغاية وتستهلك الكثير من الذاكرة لمجموعات البيانات الكبيرة، مما يجعلها غير عملية لمعظم التطبيقات الحديثة.
  • نزول التدرج الدفعي المصغر: هذا حل وسط بين GD الدفعي و SGD. حيث يتم تحديث المعلمات باستخدام مجموعة فرعية صغيرة عشوائية ("دفعة صغيرة") من البيانات. وهو يوازن بين ثبات GD الدفعي وكفاءة SGD وهو النهج الأكثر شيوعًا المستخدم في الممارسة العملية.
  • مُحسِّن آدم: آدم عبارة عن خوارزمية تحسين تكيفية تحافظ على معدل تعلم منفصل لكل معلمة وتعدله مع تقدم التعلم. وغالبًا ما تتقارب بشكل أسرع من خوارزمية SGD، ولكن يمكن لخوارزمية SGD أحيانًا أن تجد حدًا أدنى أفضل وتوفر تعميمًا أفضل، مما يساعد على منع الإفراط في التخصيص.

التطبيقات الواقعية

تُعد SGD ومتغيراته أمرًا بالغ الأهمية لتدريب مجموعة كبيرة من نماذج الذكاء الاصطناعي في مجالات مختلفة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة