يولو فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التدريب الزائد

تعرف على كيفية تحديد ومنع ومعالجة مشكلة الزيادة في التوافق (Overfitting) في تعلم الآلة. اكتشف تقنيات لتحسين تعميم النموذج والأداء الواقعي.

التحيز الزائد هو مفهوم أساسي في تعلم الآلة (ML) يحدث عندما يتعلم النموذج التفاصيل والضوضاء في بيانات التدريب إلى الحد الذي يؤثر سلبًا على أداء النموذج على بيانات جديدة وغير مرئية. بمعنى آخر، يحفظ النموذج مجموعة التدريب بدلاً من تعلم الأنماط الأساسية. ينتج عن هذا نموذج يحقق دقة عالية على البيانات التي تم تدريبه عليها، ولكنه يفشل في التعميم على بيانات العالم الحقيقي، مما يجعله غير موثوق به للتطبيقات العملية. يعد تحقيق التعميم الجيد هدفًا أساسيًا في تطوير الذكاء الاصطناعي.

كيفية تحديد فرط التخصيص

يتم تحديد التحيز الزائد عادةً عن طريق مراقبة أداء النموذج على كل من مجموعة بيانات التدريب و مجموعة بيانات التحقق منفصلة أثناء عملية التدريب. العلامة الشائعة للتحيز الزائد هي عندما تستمر قيمة دالة الخسارة لمجموعة التدريب في الانخفاض، بينما تبدأ الخسارة لمجموعة التحقق في الزيادة. وبالمثل، إذا استمرت دقة التدريب في التحسن ولكن دقة التحقق تستقر أو تتدهور على مدى الحقب اللاحقة، فمن المحتمل أن يكون النموذج متحيزًا بشكل زائد. أدوات مثل TensorBoard ممتازة لتصور هذه المقاييس وتشخيص هذه المشكلات مبكرًا. يمكن أن تساعد الأنظمة الأساسية مثل Ultralytics HUB أيضًا في تتبع التجارب وتقييم النماذج للكشف عن التحيز الزائد.

التحيز الزائد مقابل التحيز الناقص

يعد التحيز الزائد و التحيز الناقص مشكلتين شائعتين في تعلم الآلة تمثلان فشل النموذج في التعميم. إنهما في الأساس مشكلتان متعاكستان.

  • المبالغة في التوفيق: النموذج معقد للغاية بالنسبة للبيانات (تباين عالٍ). يلتقط الضوضاء والتقلبات العشوائية في بيانات التدريب، مما يؤدي إلى أداء ممتاز أثناء التدريب ولكن أداء ضعيف على بيانات الاختبار.
  • نقص الملاءمة: النموذج بسيط جدًا بحيث لا يمكنه التقاط البنية الأساسية للبيانات (تحيز عالي). إنه يؤدي أداءً ضعيفًا على كل من بيانات التدريب والاختبار لأنه لا يستطيع تعلم الأنماط ذات الصلة.

يكمن التحدي في التعلم العميق في إيجاد التوازن الصحيح، وهو مفهوم غالبًا ما يوصف بـ موازنة التحيز والتباين.

أمثلة واقعية للإفراط في التخصيص

  1. اكتشاف الأجسام في المركبات ذاتية القيادة: تخيل تدريب نموذج Ultralytics YOLO لـ مركبة ذاتية القيادة باستخدام مجموعة بيانات تحتوي فقط على صور من ظروف مشمسة ونهارية. قد يصبح النموذج متخصصًا للغاية في اكتشاف المشاة والسيارات في الضوء الساطع ولكنه يفشل بشكل كبير في الليل أو في الطقس الممطر أو الضبابي. لقد تجاوز تخصصه ظروف الإضاءة والطقس المحددة لبيانات التدريب. يمكن أن يساعد استخدام مجموعات بيانات متنوعة مثل Argoverse في منع ذلك.
  2. تحليل الصور الطبية: يتم تدريب نموذج CNN للكشف عن الأورام من فحوصات التصوير بالرنين المغناطيسي التي يتم الحصول عليها من مستشفى واحد. قد يتعلم النموذج عن غير قصد ربط بعض القطع الأثرية أو أنماط الضوضاء من جهاز التصوير بالرنين المغناطيسي الخاص بهذا المستشفى بوجود ورم. عند اختباره على فحوصات من مستشفى مختلف بجهاز مختلف، قد ينخفض أداؤه بشكل كبير لأنه تجاوز ملاءمة ضوضاء مجموعة التدريب الأصلية، وليس العلامات البيولوجية الفعلية للأورام. هذه مشكلة حاسمة في مجالات مثل الذكاء الاصطناعي في الرعاية الصحية.

كيفية منع فرط التخصيص

يمكن استخدام العديد من التقنيات لمكافحة التجاوز في التوافق وبناء نماذج أكثر قوة.

  • الحصول على المزيد من البيانات: تُعد زيادة حجم وتنوع مجموعة بيانات التدريب إحدى أكثر الطرق فعالية لمنع فرط التخصيص. تساعد المزيد من البيانات النموذج على تعلم الأنماط الأساسية الحقيقية بدلاً من الضوضاء. يمكنك استكشاف مجموعة متنوعة من مجموعات بيانات Ultralytics لتحسين مشاريعك.
  • زيادة البيانات: يتضمن ذلك التوسع الاصطناعي في مجموعة بيانات التدريب عن طريق إنشاء نسخ معدلة من البيانات الموجودة. يتم تطبيق تقنيات مثل التدوير العشوائي وتغيير الحجم والاقتصاص وتحويلات الألوان. تقنيات زيادة بيانات Ultralytics YOLO مدمجة لتحسين قوة النموذج.
  • تبسيط بنية النموذج: في بعض الأحيان، يكون النموذج معقدًا جدًا بالنسبة لمجموعة البيانات المحددة. يمكن أن يمنع استخدام بنية أبسط بعدد أقل من المعلمات النموذج من حفظ البيانات. على سبيل المثال، يمكن أن يكون اختيار متغير نموذج أصغر مثل YOLOv8n مقابل YOLOv8x مفيدًا لمجموعات البيانات الأصغر.
  • التنظيم (Regularization): تضيف هذه التقنية جزاءً إلى دالة الخسارة بناءً على تعقيد النموذج، مما يثبط أوزان النموذج الكبيرة. الطرق الشائعة هي تنظيم L1 و L2، والتي يمكنك قراءة المزيد عنها هنا.
  • التسرب (Dropout): شكل محدد من التنظيم حيث يتم تجاهل جزء عشوائي من الخلايا العصبية خلال كل خطوة تدريب. هذا يجبر الشبكة على تعلم تمثيلات زائدة ويمنع أي خلية عصبية منفردة من أن تصبح مؤثرة جدًا. تم شرح مفهوم التسرب بالتفصيل هنا.
  • التوقف المبكر: يتضمن ذلك مراقبة أداء النموذج على مجموعة التحقق وإيقاف عملية التدريب بمجرد أن يبدأ أداء التحقق في الانخفاض، حتى لو كان أداء التدريب لا يزال يتحسن. يمكنك الاطلاع على شرح التوقف المبكر في Keras لمزيد من التفاصيل.
  • التحقق المتبادل: باستخدام تقنيات مثل التحقق المتبادل K-Fold، يتم تقسيم البيانات إلى عدة طيات، ويتم تدريب النموذج والتحقق منه على مجموعات فرعية مختلفة. يوفر هذا تقديرًا أكثر قوة لقدرة النموذج على التعميم.
  • تقليم النموذج: يتضمن ذلك إزالة المعلمات أو الاتصالات من شبكة مدربة والتي لها تأثير ضئيل على أدائها، وبالتالي تقليل التعقيد. تقدم شركات مثل Neural Magic أدوات متخصصة في تقليم النماذج من أجل نشر فعال.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة