بيانات الاختبار
اكتشف أهمية بيانات الاختبار في الذكاء الاصطناعي، ودورها في تقييم أداء النموذج، واكتشاف التجاوز في التدريب، وضمان الموثوقية في العالم الحقيقي.
في تعلم الآلة، بيانات الاختبار هي جزء منفصل ومستقل من مجموعة البيانات التي يتم استخدامها للتقييم النهائي للنموذج بعد أن يتم تدريبه وضبطه بالكامل. تعمل مجموعة البيانات هذه بمثابة "الاختبار النهائي" للنموذج، مما يوفر تقييمًا غير متحيز لأدائه على بيانات جديدة وغير مرئية. المبدأ الأساسي هو أنه لا ينبغي للنموذج أبدًا أن يتعلم من بيانات الاختبار أو يتأثر بها أثناء تطويره. يضمن هذا الفصل الصارم أن مقاييس الأداء المحسوبة على مجموعة الاختبار، مثل الدقة أو متوسط الدقة المتوسطة (mAP)، هي انعكاس حقيقي لقدرة النموذج على التعميم على سيناريوهات العالم الحقيقي. يعد اختبار النموذج الدقيق خطوة حاسمة قبل نشر النموذج.
دور بيانات الاختبار في دورة حياة تعلم الآلة
في مشروع تعلم آلي (ML) نموذجي، يتم تقسيم البيانات بعناية لخدمة أغراض مختلفة. فهم التمييز بين هذه الأقسام أمر أساسي.
- بيانات التدريب: هذه هي أكبر مجموعة فرعية من البيانات، وتستخدم لتعليم النموذج. يتعلم النموذج بشكل متكرر الأنماط والميزات والعلاقات عن طريق تعديل الأوزان الداخلية الخاصة به بناءً على الأمثلة الموجودة في مجموعة التدريب. يعتمد إنشاء نموذج فعال على بيانات تدريب عالية الجودة واتباع أفضل الممارسات مثل تلك الموجودة في دليل نصائح تدريب النموذج هذا.
- بيانات التحقق (Validation Data): هذه مجموعة بيانات منفصلة تستخدم أثناء عملية التدريب. والغرض منه هو تقديم ملاحظات حول أداء النموذج على البيانات غير المرئية، مما يساعد في ضبط المعلمات الفائقة (hyperparameter tuning) (مثل تعديل معدل التعلم (learning rate)) ومنع التجاوز (overfitting). إنه مثل اختبار تدريبي يساعد في توجيه استراتيجية التعلم. غالبًا ما يتم إجراء التقييم باستخدام وضع التحقق (validation mode) مخصص.
- بيانات الاختبار: يتم الاحتفاظ بهذه المجموعة من البيانات معزولة تمامًا حتى الانتهاء من جميع عمليات التدريب والتحقق. يتم استخدامه مرة واحدة فقط لتقديم تقرير نهائي وغير متحيز عن أداء النموذج. سيؤدي استخدام بيانات الاختبار لإجراء أي تعديلات أخرى على النموذج إلى إبطال النتائج، وهو خطأ يشار إليه أحيانًا باسم "تسرب البيانات" أو "التدريس للاختبار". هذا التقييم النهائي ضروري لفهم كيفية أداء نموذج، مثل نموذج Ultralytics YOLO، بعد النشر. يمكن لأدوات مثل Ultralytics HUB المساعدة في إدارة مجموعات البيانات هذه طوال دورة حياة المشروع.
في حين أن مجموعة بيانات مرجعية يمكن أن تكون بمثابة مجموعة اختبار، إلا أن دورها الأساسي هو العمل كمعيار عام لمقارنة النماذج المختلفة، وغالبًا ما تستخدم في التحديات الأكاديمية مثل تحدي ImageNet Large Scale Visual Recognition Challenge (ILSVRC). يمكنك رؤية أمثلة على ذلك في صفحات مقارنة النماذج.
تطبيقات واقعية
- الذكاء الاصطناعي في مجال السيارات: يقوم مطور بإنشاء نموذج اكتشاف الكائنات لـ مركبة ذاتية القيادة باستخدام آلاف الساعات من لقطات القيادة للتدريب والتحقق. قبل نشر هذا النموذج في أسطول، يتم تقييمه مقابل مجموعة بيانات اختبار. ستتضمن مجموعة الاختبار هذه سيناريوهات صعبة لم يسبق رؤيتها من قبل مثل القيادة ليلاً في أمطار غزيرة أو التنقل عبر عاصفة ثلجية أو اكتشاف المشاة المحجوبين جزئيًا بأشياء أخرى. يحدد أداء النموذج في مجموعة الاختبار هذه، غالبًا باستخدام بيانات من معايير مثل nuScenes، ما إذا كان يفي بمعايير السلامة والموثوقية الصارمة المطلوبة لتطبيقات الذكاء الاصطناعي في مجال السيارات.
- تحليل الصور الطبية: يتم تدريب نموذج رؤية حاسوبية (CV) لاكتشاف علامات الالتهاب الرئوي من صور الأشعة السينية للصدر مأخوذة من مستشفى واحد. لضمان فائدته سريريًا، يجب اختبار النموذج على مجموعة بيانات من الصور من نظام مستشفى مختلف. ستتضمن بيانات الاختبار هذه صورًا تم التقاطها بمعدات مختلفة، ومن مجموعة متنوعة من المرضى، وتم تفسيرها من قبل أخصائيي أشعة مختلفين. يعد تقييم أداء النموذج على مجموعة الاختبار الخارجية هذه أمرًا بالغ الأهمية للحصول على الموافقة التنظيمية، مثل الموافقة من إدارة الغذاء والدواء (FDA)، وتأكيد فائدته لـ الذكاء الاصطناعي في مجال الرعاية الصحية. تساعد هذه العملية على ضمان تجنب النموذج تحيز مجموعة البيانات ويؤدي أداءً موثوقًا به في البيئات السريرية الجديدة.