قم بتحسين نماذج التعلم الآلي باستخدام بيانات التحقق من الصحة لمنع الإفراط في الضبط، وضبط المعلمات الفائقة، وضمان أداء قوي وواقعي.
تُعد بيانات التحقق من صحة البيانات مكونًا حاسمًا في دورة تطوير التعلم الآلي (ML). وهي مجموعة فرعية منفصلة من مجموعة البيانات الأصلية، تختلف عن بيانات التدريب المستخدمة لملاءمة النموذج وبيانات الاختبار المستخدمة للتقييم النهائي. يتمثل الغرض الأساسي من بيانات التحقق من الصحة في توفير تقييم غير متحيز لملاءمة النموذج على مجموعة بيانات التدريب أثناء ضبط المعلمات الفائقة للنموذج واتخاذ قرارات بشأن بنية النموذج. تساعد هذه العملية في اختيار أفضل تكوين للنموذج قبل تقييم أدائه النهائي على البيانات غير المرئية.
أثناء عملية تدريب النموذج، يتعلم نموذج التعلم الآلي الأنماط من بيانات التدريب. ومع ذلك، فإن تقييم النموذج على هذه البيانات فقط يمكن أن يكون مضللاً، لأن النموذج قد يحفظ ببساطة أمثلة التدريب، وهي ظاهرة تُعرف باسم الإفراط في التهيئة. تعمل بيانات التحقق من صحة البيانات كنقطة تحقق. من خلال تقييم أداء النموذج على هذه المجموعة المنفصلة بشكل دوري أثناء التدريب، يمكن للمطورين:
يعد فهم التمييز بين مجموعات بيانات التدريب والتحقق من الصحة والاختبار أمرًا أساسيًا لتطوير نموذج قوي:
يضمن الفصل المناسب، الذي غالبًا ما تتم إدارته باستخدام أدوات مثل Ultralytics HUB لإصدار مجموعة البيانات وإدارتها، عدم "تسرب" المعلومات من مجموعة الاختبار إلى عملية التدريب أو اختيار النموذج، مما قد يؤدي إلى تقديرات أداء مفرطة في التفاؤل.
لا غنى عن بيانات التحقق من الصحة لضبط المعلمات الفائقة. المعلمات الفائقة هي إعدادات تكوين خارجة عن النموذج نفسه، يتم ضبطها قبل بدء عملية التعلم. ومن الأمثلة على ذلك معدل التعلم، أو عدد الطبقات في الشبكة العصبونية، أو نوع خوارزمية التحسين المستخدمة. يقوم المطورون بتدريب إصدارات متعددة من النماذج بمجموعات مختلفة من المعلمات الفائقة، وتقييم كل منها على مجموعة التحقق من الصحة، واختيار المجموعة التي تحقق أفضل أداء. يمكن أتمتة هذا البحث المنهجي باستخدام طرق مثل البحث الشبكي أو التحسين البايزي، وغالبًا ما يتم تسهيله من خلال منصات مدمجة مع أدوات MLOps.
عندما تكون كمية البيانات المتوفرة محدودة، غالبًا ما يتم استخدام تقنية تسمى التحقق المتقاطع (تحديدًا التحقق المتقاطع K-Falidation). هنا، يتم تقسيم بيانات التدريب إلى مجموعات فرعية "K" (طيّات). يتم تدريب النموذج K مرات، وفي كل مرة يتم استخدام طيات K-1 للتدريب والطية المتبقية كمجموعة التحقق من الصحة. ثم يتم حساب متوسط الأداء عبر جميع عمليات التشغيل K. يوفر هذا تقديرًا أكثر قوة لأداء النموذج ويستفيد بشكل أفضل من البيانات المحدودة، كما هو موضح في دليل التحقق المتقاطع K-Falidation K-Fold للتحقق من صحة Ultralytics .
باختصار، بيانات التحقق من الصحة هي حجر الزاوية في بناء نماذج ذكاء اصطناعي موثوقة وعالية الأداء. فهي تُمكِّن من ضبط المعامل الفائق بفعالية، واختيار النماذج، ومنع الإفراط في التكييف، مما يضمن تعميم النماذج بشكل جيد خارج نطاق البيانات التي تم تدريبها عليها.