استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

بيانات التحقق من الصحة

حسّن نماذج تعلم الآلة ببيانات التحقق لمنع التجاوز، وضبط المعلمات الفائقة، وضمان أداء قوي في العالم الحقيقي.

بيانات التحقق هي عينة من البيانات المحجوزة من عملية التدريب والتي تستخدم لتقديم تقييم غير متحيز لملاءمة النموذج أثناء ضبط المعلمات الفائقة الخاصة به. الدور الأساسي لمجموعة التحقق هو توجيه تطوير نموذج التعلم الآلي (ML) من خلال تقديم تقييم مستقل ومتكرر لأدائه. حلقة التغذية الراجعة هذه ضرورية لبناء نماذج لا تعمل بشكل جيد فقط على البيانات التي رأتها ولكنها تعمم أيضًا بشكل فعال على البيانات الجديدة غير المرئية، وهو مفهوم أساسي لإنشاء أنظمة الذكاء الاصطناعي (AI) القوية.

أهمية بيانات التحقق

الغرض الرئيسي من بيانات التحقق هو منع الإفراط في التخصيص. يحدث الإفراط في التخصيص عندما يتعلم النموذج بيانات التدريب بشكل جيد للغاية، ويلتقط الضوضاء والتفاصيل التي لا تنطبق على البيانات الجديدة، وبالتالي يضر بأدائه. من خلال اختبار النموذج مقابل مجموعة التحقق على فترات منتظمة (على سبيل المثال، بعد كل حقبة (epoch))، يمكن للمطورين مراقبة خطأ التعميم الخاص به. إذا استمر الأداء في بيانات التدريب في التحسن بينما توقف الأداء في بيانات التحقق أو تدهور، فهذه علامة واضحة على الإفراط في التخصيص.

تعتبر عملية التقييم هذه ضرورية لـ ضبط المعلمات الفائقة (hyperparameter tuning). المعلمات الفائقة هي إعدادات التكوين الخارجية للنموذج، مثل معدل التعلم (learning rate) أو حجم الدفعة (batch size)، والتي لا يتم تعلمها من البيانات. تسمح مجموعة التحقق بالتجربة مع مجموعات مختلفة من المعلمات الفائقة للعثور على المجموعة التي تحقق أفضل أداء. هذه العملية التكرارية هي جزء أساسي من اختيار النموذج (model selection) وتحسينه.

بيانات التحقق مقابل بيانات التدريب والاختبار

في مشروع ML نموذجي، يتم تقسيم مجموعة البيانات إلى ثلاث مجموعات فرعية، وفهم أدوارها المتميزة أمر أساسي. يتمثل أحد الأساليب الشائعة لتقسيم البيانات في تخصيص 70٪ للتدريب و 15٪ للتحقق و 15٪ للاختبار.

  • بيانات التدريب: هذا هو الجزء الأكبر من البيانات، ويستخدم لتعليم النموذج. يتعلم النموذج بشكل متكرر الأنماط والميزات والعلاقات من مجموعة البيانات هذه عن طريق تعديل أوزان النموذج الداخلية الخاصة به.
  • بيانات التحقق: تُستخدم هذه المجموعة الفرعية المنفصلة لتوفير تقييم غير متحيز أثناء عملية التدريب. فهو يساعد على ضبط المعلمات الفائقة واتخاذ القرارات الرئيسية، مثل متى يتم تنفيذ الإيقاف المبكر لمنع التجاوز. في نظام Ultralytics البيئي، يتم التعامل مع هذا التقييم في وضع التحقق.
  • بيانات الاختبار (Test Data): يتم الاحتفاظ بمجموعة البيانات هذه حتى يتم تدريب النموذج وضبطه بالكامل. يتم استخدامه مرة واحدة فقط لتقديم تقييم نهائي وغير متحيز لأداء النموذج. يشير أداء مجموعة الاختبار إلى كيفية توقع أداء النموذج في سيناريو نشر واقعي.

يُعد الحفاظ على فصل صارم، خاصة بين مجموعات التحقق والاختبار، أمرًا بالغ الأهمية لتقييم قدرات النموذج بدقة وتجنب المفاضلة بين التحيز والتباين.

أمثلة واقعية

  1. اكتشاف الكائنات بالرؤية الحاسوبية: عند تدريب نموذج Ultralytics YOLO لاكتشاف الكائنات في الصور (على سبيل المثال، باستخدام مجموعة بيانات VisDrone)، يتم تخصيص جزء من الصور المسماة كبيانات تحقق. أثناء التدريب، يتم حساب mAP (متوسط الدقة المتوسطة) للنموذج على مجموعة التحقق هذه بعد كل حقبة. يساعد mAP للتحقق هذا في تحديد متى يتم إيقاف التدريب أو أي مجموعة من تقنيات زيادة البيانات تعمل بشكل أفضل، قبل إجراء فحص نهائي للأداء على مجموعة الاختبار. تعتمد استراتيجيات تقييم النموذج الفعالة بشكل كبير على هذا التقسيم.
  2. تصنيف النصوص في معالجة اللغة الطبيعية: في تطوير نموذج لتصنيف مراجعات العملاء على أنها إيجابية أو سلبية (تحليل المشاعر)، يتم استخدام مجموعة التحقق لاختيار البنية المثالية (مثل LSTM مقابل Transformer) أو ضبط المعلمات الفائقة مثل معدلات التسرب. سيتم اختيار النموذج الذي يحقق أعلى F1-score أو دقة في مجموعة التحقق للاختبار النهائي. غالبًا ما توفر موارد مثل Hugging Face Datasets مجموعات بيانات مقسمة مسبقًا لهذا الغرض.

التحقق المتبادل

عندما تكون كمية البيانات المتاحة محدودة، غالبًا ما يتم استخدام تقنية تسمى التحقق المتبادل (تحديدًا التحقق المتبادل K-Fold). هنا، يتم تقسيم بيانات التدريب إلى مجموعات فرعية 'K' (طيات). يتم تدريب النموذج K مرة، وفي كل مرة يتم استخدام K-1 طية للتدريب والطية المتبقية كمجموعة التحقق. ثم يتم حساب متوسط الأداء عبر جميع عمليات التشغيل K. يوفر هذا تقديرًا أكثر قوة لأداء النموذج ويستفيد بشكل أفضل من البيانات المحدودة، كما هو موضح في موارد مثل وثائق scikit-learn و دليل Ultralytics K-Fold Cross-Validation.

باختصار، بيانات التحقق هي حجر الزاوية في بناء نماذج ذكاء اصطناعي موثوقة وعالية الأداء باستخدام أطر عمل مثل PyTorch و TensorFlow. فهو يتيح الضبط الفعال للمعلمات الفائقة واختيار النموذج ومنع التجاوز، مما يضمن تعميم النماذج بشكل جيد بما يتجاوز البيانات التي تم تدريبها عليها. تقدم منصات مثل Ultralytics HUB أدوات متكاملة لإدارة مجموعات البيانات هذه بفعالية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة