Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

بيانات الاختبار

اكتشف أهمية بيانات الاختبار في الذكاء الاصطناعي، ودورها في تقييم أداء النموذج، واكتشاف التجاوز في التدريب، وضمان الموثوقية في العالم الحقيقي.

في التعلّم الآلي، بيانات الاختبار هي جزء منفصل ومستقل من مجموعة بيانات تُستخدم للتقييم النهائي النهائي للنموذج بعد أن يكون قد تم تدريبه وضبطه بالكامل. تعمل مجموعة البيانات هذه بمثابة "امتحان نهائي" للنموذج للنموذج، مما يوفر تقييمًا غير متحيز لأدائه على بيانات جديدة غير مرئية. المبدأ الأساسي هو أن النموذج يجب ألا يتعلم النموذج من بيانات الاختبار أو يتأثر بها أثناء تطويره. يضمن هذا الفصل الصارم أن مقاييس الأداء المحسوبة على مجموعة الاختبار، مثل الدقة أو متوسط الدقة (mAP)، هي انعكاس حقيقي انعكاسًا حقيقيًا لقدرة النموذج على التعميم على سيناريوهات العالم الحقيقي. يُعد الاختبار الدقيق اختبار النموذج خطوة حاسمة قبل نشر النموذج.

دور بيانات الاختبار في دورة حياة تعلم الآلة

في مشروع نموذجي لتعلم الآلة (ML), يتم تقسيم البيانات بعناية لخدمة أغراض مختلفة. يعد فهم التمييز بين هذه الأقسام أساسي لبناء نماذج موثوقة.

  • بيانات التدريب: هذه هي أكبر مجموعة فرعية مجموعة فرعية من البيانات، تُستخدم لتعليم النموذج. يتعلم النموذج بشكل متكرر الأنماط والسمات والعلاقات من خلال بتعديل أوزان النموذج الداخلي الخاص به بناءً على الأمثلة في مجموعة التدريب. يعتمد الإنشاء الفعال للنموذج على بيانات تدريب عالية الجودة واتباع أفضل الممارسات مثل تلك الموجودة في دليل نصائح تدريب النموذج.
  • بيانات التحقق من الصحة: هذه مجموعة بيانات مجموعة بيانات منفصلة تُستخدم أثناء عملية التدريب. والغرض منها هو تقديم ملاحظات حول أداء النموذج على البيانات غير المرئية، وهو ما يساعد في في ضبط البارامتر الفائق (على سبيل المثال، ضبط معدل معدل التعلم) ومنع الإفراط في التركيب. إنه مثل اختبار تدريبي يساعد في في توجيه استراتيجية التعلم. غالباً ما يتم إجراء التقييم باستخدام مخصص للتحقق من الصحة.
  • بيانات الاختبار: يتم الاحتفاظ بمجموعة البيانات هذه معزولة تمامًا حتى يتم الانتهاء من جميع عمليات التدريب والتحقق من الصحة. يتم استخدامها مرة واحدة فقط لتقديم تقرير نهائي غير متحيز عن أداء النموذج. استخدام بيانات الاختبار لإجراء أي المزيد من التعديلات على النموذج سيؤدي إلى إبطال النتائج، وهو خطأ يُشار إليه أحيانًا باسم "تسرب البيانات" أو "التدريس إلى الاختبار." هذا التقييم النهائي ضروري لفهم كيف يمكن للنموذج، مثل نموذج Ultralytics YOLO11 بعد النشر.

بعد التدريب، يمكنك استخدام val على وضع تقسيم الاختبار الخاص بك لإنشاء مقاييس الأداء النهائية.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

في حين أن مجموعة البيانات المعيارية يمكن أن تكون بمثابة اختبار فإن دورها الأساسي هو أن تكون بمثابة معيار عام لمقارنة النماذج المختلفة، وغالبًا ما تُستخدم في التحديات الأكاديمية مثل تحدي التعرف البصري علىImageNet على نطاق واسعImageNet (ILSVRC). يمكنك أن ترى أمثلة على ذلك في صفحات مقارنة النماذج.

تطبيقات واقعية

  1. الذكاء الاصطناعي في السيارات: يقوم أحد المطورين بإنشاء نموذجًا للكشف عن الأجسام في مركبة ذاتية القيادة باستخدام آلاف الساعات من من لقطات القيادة للتدريب والتحقق من صحتها. قبل نشر هذا النموذج في أسطول من السيارات، يتم تقييمه مقابل مجموعة بيانات مجموعة بيانات اختبارية. ستشمل مجموعة الاختبار هذه سيناريوهات صعبة لم يسبق لها مثيل مثل القيادة ليلاً تحت المطر الغزير مطر غزير، أو التنقل خلال عاصفة ثلجية، أو اكتشاف المشاة المحجوبين جزئياً بأجسام أخرى. أداء النموذج على مجموعة الاختبار هذه، وغالبًا ما يستخدم بيانات من معايير مثل مثل nuScenes، يحدد ما إذا كان يلبي معايير معايير السلامة والموثوقية الصارمة المطلوبة الذكاء الاصطناعي في تطبيقات السيارات.
  2. تحليل الصور الطبية: A تم تدريب نموذج رؤية حاسوبية (CV) على detect علامات الالتهاب الرئوي من صور الأشعة السينية للصدر المأخوذة من أحد المستشفيات. للتأكد من أنه مفيد سريرياً، يجب اختبار النموذج يجب اختبار النموذج على مجموعة بيانات من الصور من نظام مستشفى مختلف. ستتضمن بيانات الاختبار هذه صوراً تم التقاطها بأجهزة مختلفة، من مجموعة متنوعة من المرضى، وتم تفسيرها من قبل أخصائيي أشعة مختلفين. يُعد تقييم أداء النموذج على مجموعة الاختبارات الخارجية هذه أمراً بالغ الأهمية للحصول على موافقة الجهات التنظيمية، مثل من إدارة الغذاء والدواء الأمريكية، وتأكيد فائدته في الذكاء الاصطناعي في مجال الرعاية الصحية. تساعد هذه العملية على ضمان تجنب النموذج التحيز في مجموعة البيانات وأداءه بشكل موثوق في إعدادات سريرية جديدة. يمكنك العثور على مجموعات بيانات التصوير الطبي العامة في موارد مثل أرشيف تصوير السرطان (TCIA).

أفضل الممارسات لإدارة بيانات الاختبار

لضمان سلامة تقييمك، ضع في اعتبارك أفضل الممارسات التالية:

  • أخذ عينات عشوائية: عند إنشاء تقسيمات البيانات الخاصة بك، تأكد من أن مجموعة الاختبار هي عينة تمثيلية للمساحة الكلية للمشكلة. أدوات مثل مثل أداة scikit-learn's train_test_split في أتمتة هذا التقسيم العشوائي.
  • منع تسرب البيانات: تأكد من عدم وجود تداخل بين مجموعتي التدريب والاختبار. حتى التسرب الطفيف, مثل وجود إطارات من نفس مقطع الفيديو في كلتا المجموعتين، يمكن أن يؤدي إلى تضخيم درجات الأداء بشكل مصطنع.
  • التوزيع التمثيلي: بالنسبة لمهام مثل التصنيف، تحقق من أن التوزيع الفئوي في مجموعة الاختبار يعكس التوزيع الواقعي الذي تتوقع أن تواجهه في العالم الحقيقي.
  • مقاييس التقييم: اختر المقاييس التي تتماشى مع أهداف عملك. على سبيل المثال، في تطبيق أمان قد يكون الاستدعاء العالي أكثر أهمية من الدقة لضمان عدم تفويت أي تهديدات.

من خلال الالتزام الصارم بهذه المبادئ، يمكنك استخدام بيانات الاختبار بثقة للتصديق على أن أن نماذجUltralytics الخاصة بك جاهزة لبيئات الإنتاج.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن