قم بتحسين نماذج التعلّم الآلي باستخدام بيانات التحقق من الصحة لمنع الإفراط في الضبط، وضبط المعلمات الفائقة، وضمان أداء قوي وواقعي.
بيانات التحقق من الصحة هي عينة من البيانات المحتجزة من عملية التدريب التي تُستخدم لتوفير تقييم غير متحيز لمدى ملاءمة النموذج أثناء ضبط المعلمات الفائقة الخاصة به. يتمثل الدور الأساسي لمجموعة التحقق من الصحة في توجيه عملية تطوير نموذج التعلم الآلي (ML) من خلال تقديم تقييم متكرر ومستقل لأدائه. تُعد حلقة التغذية الراجعة هذه ضرورية لبناء نماذج لا تؤدي أداءً جيدًا على البيانات التي شاهدتها فحسب، بل تعمم أيضًا بشكل فعال على البيانات الجديدة غير المرئية، وهو مفهوم أساسي لإنشاء أنظمة ذكاء اصطناعي قوية.
الغرض الرئيسي من بيانات التحقق من صحة البيانات هو منع الإفراط في التركيب. ويحدث الإفراط في التعميم عندما يتعلم النموذج بيانات التدريب بشكل جيد للغاية، حيث يلتقط الضوضاء والتفاصيل التي لا تنطبق على البيانات الجديدة، مما يضر بأدائه. من خلال اختبار النموذج مقابل مجموعة التحقق من الصحة على فترات منتظمة (على سبيل المثال، بعد كل حقبة)، يمكن للمطورين مراقبة خطأ التعميم. إذا استمر الأداء على بيانات التدريب في التحسّن بينما يستمر الأداء على بيانات التحقق من الصحة في الركود أو يتدهور، فهذه علامة واضحة على الإفراط في التعميم.
تعتبر عملية التقييم هذه ضرورية لضبط المعلمات الفائقة. المعلمات الفائقة هي إعدادات تكوين خارجة عن النموذج، مثل معدل التعلّم أو حجم الدُفعات التي لا يتم تعلمها من البيانات. تسمح مجموعة التحقق من الصحة بتجربة تركيبات مختلفة من المعلمات الفائقة للعثور على المجموعة التي تحقق أفضل أداء. هذه العملية التكرارية هي جزء أساسي من اختيار النموذج وتحسينه.
في أي مشروع نموذجي لتعلّم الآلة يتم تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية، ويعتبر فهم أدوارها المختلفة أمرًا أساسيًا. تتمثل إحدى الطرق الشائعة لتقسيم البيانات في تخصيص 70% للتدريب، و15% للتحقق من صحة البيانات، و15% للاختبار.
يعد الحفاظ على فصل صارم، خاصةً بين مجموعتي التحقق والاختبار، أمرًا بالغ الأهمية لإجراء تقييم دقيق لقدرات النموذج وتجنب المفاضلة بين التحيز والتباين.
عندما تكون كمية البيانات المتوفرة محدودة، غالبًا ما يتم استخدام تقنية تسمى التحقق المتقاطع (تحديدًا التحقق المتقاطع K-Falidation). هنا، يتم تقسيم بيانات التدريب إلى مجموعات فرعية "K" (طيّات). يتم تدريب النموذج K مرات، وفي كل مرة يتم استخدام طيات K-1 للتدريب والطية المتبقية كمجموعة التحقق من الصحة. ثم يتم حساب متوسط الأداء عبر جميع عمليات التشغيل K. يوفر هذا تقديرًا أكثر قوة لأداء النموذج ويستفيد بشكل أفضل من البيانات المحدودة، كما هو موضح في موارد مثل وثائق scikit-learn ودليل التحقق المتقاطع K-Fold Cross-Validation الخاص ب Ultralytics.
باختصار، تعد بيانات التحقق من صحة البيانات حجر الزاوية في بناء نماذج ذكاء اصطناعي موثوقة وعالية الأداء باستخدام أطر عمل مثل PyTorch و TensorFlow. فهي تتيح الضبط الفعال للمقياس الفائق، واختيار النموذج، ومنع الإفراط في التخصيص، مما يضمن تعميم النماذج بشكل جيد خارج نطاق البيانات التي تم تدريبها عليها. توفر منصات مثل Ultralytics HUB أدوات متكاملة لإدارة مجموعات البيانات هذه بفعالية.