Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

بيانات التحقق من الصحة

حسّن نماذج تعلم الآلة ببيانات التحقق لمنع التجاوز، وضبط المعلمات الفائقة، وضمان أداء قوي في العالم الحقيقي.

تعمل بيانات التحقق من الصحة كخطوة وسيطة حاسمة في دورة حياة تطوير التعلم الآلي، حيث تعمل كـ للبيانات غير المرئية أثناء عملية تدريب النموذج. إنها مجموعة فرعية مميزة من مجموعة البيانات المستخدمة لتوفير تقييم غير متحيز لمدى ملاءمة النموذج أثناء ضبط تكوينه. من خلال اختبار النموذج بشكل دوري مقابل بيانات التحقق، يمكن للمطوّرين تقييم مدى جودة تعلّم النظام التعميم على المعلومات الجديدة بدلاً من مجرد حفظ أمثلة التدريب. تعد حلقة التغذية الراجعة هذه ضرورية لتحديد المشاكل في وقت مبكر وتحسين النموذج النموذج من أجل أداء قوي في العالم الحقيقي.

دور التحقق من الصحة في ضبط النموذج

تتمثل الوظيفة الأساسية لبيانات التحقق من الصحة في تسهيل عملية ضبط البارامتر الفائق. على عكس المعلمات الداخلية الداخلية مثل أوزان النموذج، والتي يتم تعلمها مباشرةً من عملية التدريب، فإن المعاملات الفائقة - مثل معدل معدل التعلم أو أو حجم الدفعة - يجبضبطها يدوياً أو تحسينها من خلال التجريب. تسمح مجموعة التحقق من الصحة للمهندسين بمقارنة بنيات وتكوينات النماذج المختلفة من أجل اختيار الأفضل أداءً دون لمس مجموعة الاختبار النهائية.

علاوة على ذلك، تساعد مراقبة الأداء على بيانات التحقق من الصحة في منع الإفراط في الملاءمة. يحدث الإفراط في الملاءمة عندما يتعلم النموذج الضجيج والتفاصيل المحددة لبيانات التدريب على حساب أدائه على البيانات الجديدة. إذا انخفض خطأ التدريب ولكن خطأ التحقق من الصحة يزداد، فهذا يشير إلى أن النموذج يفقد قدرته على التعميم، مما يشير إلى إلى الحاجة إلى تقنيات التدخل مثل الإيقاف المبكر.

التمييز بين تقسيمات البيانات

لضمان إجراء تقييم موثوق به، عادةً ما يتم تقسيم مجموعة البيانات الكاملة إلى ثلاثة أجزاء متميزة. يُعدّ فهم الغرض المحدد من كل تقسيم هو أمر حيوي لفعالية إدارة البيانات بفعالية.

  • بيانات التدريب: هذه هي أكبر مجموعة فرعية مجموعة فرعية تُستخدم لتعليم الشبكة العصبية. يقوم النموذج بالتكرار على هذه البيانات، ويضبط معلماته لتقليل دالة الخسارة.
  • بيانات التحقق من الصحة: تُستخدم للتقييم فقط أثناء التدريب. وهي توجه اختيار أفضل نقطة تحقق للنموذج وتساعد على ضبط المعلمات الفائقة. والأهم من ذلك، لا "يتعلم" النموذج مباشرةً من هذه مباشرة، بل يستخدمها فقط للتقييم.
  • بيانات الاختبار: مجموعة بيانات محجوبة بالكامل مجموعة بيانات تُستخدم فقط بعد اختيار النموذج النهائي. توفر مقياسًا نهائيًا غير متحيز للدقة والموثوقية قبل نشر النموذج.

التنفيذ العملي باستخدام Ultralytics

في نظام Ultralytics يتم دمج التحقق من الصحة بسلاسة في سير العمل. عند تعريف مجموعة البيانات YAML يحدد المستخدمون مسارات لصور التدريب والتحقق من الصحة. يمكن بعد ذلك يمكن بعد ذلك استدعاء وضع التحقق من صحةUltralytics لحساب مقاييس مثل متوسط متوسط الدقة (mAP) على مجموعة التحقق من صحة مجموعة التحقق من الصحة.

فيما يلي كيفية التحقق من صحة نموذجYOLO11 المدرب مسبقًا باستخدام Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")

# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")

تطبيقات واقعية

تمكّن بيانات التحقق من صحة البيانات المطورين من ضبط النماذج بشكل دقيق لقطاعات محددة حيث تكون الدقة في غاية الأهمية.

  • الزراعة الذكية: في الذكاء الاصطناعي في الزراعة، يتم تدريب النماذج على detect أمراض المحاصيل أو مراقبة النضج. مجموعة تحقق تحتوي على صور تم التقاطها في ظروف مناخية مختلفة (مشمسة، ملبدة بالغيوم، ممطرة) تضمن قوة النموذج في مواجهة التغيرات البيئية. من خلال ضبط استراتيجيات زيادة البيانات بناءً على يحصل المزارعون على تنبؤات موثوقة بغض النظر عن التوقعات.
  • تشخيص الرعاية الصحية: عند تطوير الذكاء الاصطناعي في مجال الرعاية الصحية لمهام مثل تحليل الأشعة المقطعية فإن تجنب التحيز أمر بالغ الأهمية. تساعد بيانات التحقق من الصحة على ضمان أن النموذج الذي تم تدريبه على بيانات من مستشفى واحد يعمم بشكل جيد على الماسحات الضوئية من جهات تصنيع مختلفة. يساعد هذا الفحص الدقيق على تجنب مخاطر المفاضلة بين التحيز والتباين، مما يضمن سلامة المرضى.

التقنيات المتقدمة: التحقق التبادلي

في السيناريوهات التي تكون فيها البيانات نادرة، قد يؤدي تقسيم التحقق الثابت إلى إزالة الكثير من بيانات التدريب القيّمة. في هذه الحالات غالبًا ما يستخدم الممارسون المصادقة المتقاطعة، وتحديداً K-Falidation التحقق المتقاطع. تتضمن هذه التقنية تقسيم البيانات إلى مجموعات فرعية "K" وتناوب أي مجموعة فرعية تعمل بمثابة بيانات التحقق من الصحة. هذا يضمن استخدام كل نقطة بيانات في كل من التدريب والتحقق من الصحة، مما يوفر تقدير أكثر قوة من الناحية الإحصائية لأداء النموذج، كما هو مفصل في وثائق المصادقة التبادلية ل scikit-learn.

الاستخدام السليم لبيانات التحقق من الصحة هو حجر الزاوية في عمليات التعلم الآلي (MLOps). من خلال فصل أمثلة التحقق من الصحة بشكل صارم عن عملية التدريب، يضمن المطورون أن نماذجهم لا تقوم فقط حفظ الحقائق، بل يتعلمون بصدق تفسير العالم المرئي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن