مسرد المصطلحات

حجم الدفعة

اكتشف تأثير حجم الدُفعات على التعلُّم العميق. قم بتحسين سرعة التدريب واستخدام الذاكرة وأداء النموذج بكفاءة.

في التعلّم الآلي، خاصة عند تدريب نماذج التعلّم العميق، يشير حجم الدُفعات إلى عدد أمثلة التدريب التي تتم معالجتها في تكرار واحد. إن تدريب نماذج كبيرة على مجموعات بيانات ضخمة، وهو أمر شائع في مجالات مثل الرؤية الحاسوبية، غالبًا ما يجعل معالجة مجموعة البيانات بأكملها دفعة واحدة غير ممكنة حسابيًا بسبب قيود الذاكرة. بدلاً من ذلك، يتم تقسيم البيانات إلى مجموعات أو "دفعات" أصغر يمكن التحكم فيها. يتم تحديث المعلمات الداخلية للنموذج بعد معالجة كل دفعة، مما يجعل عملية التدريب أكثر كفاءة وقابلية للتطوير.

أهمية حجم الدفعة

حجم الدُفعات هو معيار مفرط بالغ الأهمية يؤثر بشكل كبير على ديناميكيات التدريب، واستخدام الموارد، وفي نهاية المطاف، أداء النموذج النهائي. وتشمل آثاره ما يلي:

سرعة التدريب: يمكن أن تستفيد أحجام الدفعات الأكبر من إمكانيات المعالجة المتوازية للأجهزة مثل وحدات معالجة الرسومات بشكل أكثر فعالية، مما يقلل من الوقت اللازم لإكمال حلقة واحدة (تمرير كامل لبيانات التدريب). ويرجع ذلك إلى تحسين استخدام الأجهزة وتقليل تحديثات المعلمات في كل دورة تدريبية. تعرف على المزيد حول مفاهيم الحوسبة المتوازية.
استخدام الذاكرة: يؤثر حجم الدُفعات بشكل مباشر على حجم الذاكرةCPU ذاكرة الوصول العشوائيCPU أو ذاكرة الوصول العشوائي GPU ) المطلوبة. تحتاج الدفعات الأكبر إلى ذاكرة أكبر لتخزين البيانات والتنشيطات والتدرجات أثناء التدريب. تعد تقنيات تحسين استخدام الذاكرة أمرًا بالغ الأهمية عند العمل مع أحجام دفعات كبيرة أو أجهزة محدودة.
تعميم النموذج: يؤثر اختيار حجم الدفعة على عملية التحسين وتعميم النموذج. تُدخل الدفعات الأصغر حجمًا مزيدًا من الضوضاء في تقدير التدرج المستخدم في خوارزميات مثل "نزول التدرج العشوائي" (SGD). يمكن أن يعمل هذا التشويش في بعض الأحيان كشكل من أشكال التنظيم، مما يساعد النموذج على الهروب من الحدود الدنيا المحلية الحادة وربما يحسن قدرته على التعميم على البيانات غير المرئية، وبالتالي تقليل الإفراط في التخصيص. على العكس من ذلك، توفر الدفعات الأكبر تقديرًا أكثر دقة لتدرج مجموعة البيانات الإجمالية، ولكنها قد تتقارب إلى حد أدنى أكثر حدة، مما قد يعيق التعميم في بعض الأحيان، كما نوقش في بحث مثل"حول التدريب على دفعات كبيرة للتعلم العميق".
تفاعل معدل التعلم: غالبًا ما يتفاعل حجم الدفعة مع معدل التعلم. بشكل عام، تسمح أحجام الدُفعات الأكبر بمعدلات تعلّم أعلى وغالبًا ما تستفيد منها. يمكن للمُحسِّنات مثل Adam المساعدة في إدارة هذه التفاعلات.

اختيار حجم الدفعة المناسبة

يتضمن اختيار الحجم الأمثل للدُفعات تحقيق التوازن بين الكفاءة الحسابية وقيود الذاكرة وتعميم النموذج. لا يوجد حجم "أفضل" عالمي للدفعات؛ إذ يعتمد ذلك بشكل كبير على مجموعة البيانات المحددة (مثل مجموعة بيانات COCO)، وبنية النموذج (مثل تلك المستخدمة في Ultralytics YOLO)، وموارد الأجهزة المتاحة. غالبًا ما تندرج الخيارات الشائعة ضمن قوى العدد 2 (على سبيل المثال، 16، 32، 64، 128) بسبب تحسينات محاذاة الذاكرة للأجهزة. عادةً ما تكون هناك حاجة إلى التجريب وتقنيات مثل ضبط المعلمة الفائقة. أطر مثل PyTorch و TensorFlow مرونة في تحديد أحجام الدفعات.