F1-Score
تعرف على كيفية موازنة F1-Score بين الدقة (precision) والاستدعاء (recall) لتقييم نماذج تعلم الآلة. اكتشف كيفية تحسين أداء Ultralytics YOLO26 للحصول على دقة أفضل.
يعد مقياس F1-Score مقياساً حاسماً للأداء في تعلم الآلة، حيث يجمع بين الدقة (Precision) والاسترجاع (Recall) في متوسط توافقي واحد. وهو مفيد بشكل خاص لتقييم نماذج التصنيف التي تعاني من عدم توازن في مجموعات البيانات أو حيث تحمل النتائج الإيجابية الخاطئة والسلبية الخاطئة تكاليف مختلفة. بخلاف الدقة المباشرة، التي قد تكون مضللة إذا كانت إحدى الفئات تهيمن على مجموعة البيانات، يوفر مقياس F1-Score رؤية أكثر توازناً لقدرة النموذج على تحديد الحالات ذات الصلة بشكل صحيح مع تقليل الأخطاء. ومن خلال معاقبة القيم المتطرفة، فإنه يضمن عدم تحقيق درجة عالية إلا عندما تكون كل من الدقة والاسترجاع مرتفعتين بشكل معقول، مما يجعله مقياساً أساسياً في مجالات تتراوح من التشخيص الطبي إلى استرجاع المعلومات.
Link to this sectionلماذا يعد مقياس F1-Score مهماً في تعلم الآلة#
في العديد من سيناريوهات العالم الحقيقي، لا يكفي مجرد معرفة نسبة التنبؤات الصحيحة (الدقة). على سبيل المثال، في اكتشاف الشذوذ، تفوق الحالات الطبيعية عدد الحالات الشاذة بكثير. فالنموذج الذي يتنبأ بـ "طبيعي" لكل مدخل قد يحقق دقة بنسبة 99% ولكنه سيكون عديم الفائدة في اكتشاف المشكلات الفعلية. يعالج مقياس F1-Score هذا الأمر من خلال موازنة مقياسين متنافسين:
- الدقة: تقيس هذه جودة التنبؤات الإيجابية. وهي تجيب على السؤال: "من بين جميع الحالات التي صنفها النموذج على أنها إيجابية، كم عدد الحالات التي كانت إيجابية بالفعل؟"
- الاسترجاع: يقيس هذا كمية التنبؤات الإيجابية. وهو يجيب على: "من بين جميع الحالات الإيجابية الفعلية، كم عدد الحالات التي حددها النموذج بشكل صحيح؟"
نظراً لوجود مقايضة في كثير من الأحيان - حيث يؤدي تحسين الدقة عادةً إلى خفض الاسترجاع والعكس صحيح - يعمل مقياس F1-Score كمقياس موحد لإيجاد نقطة توازن مثالية. وهذا أمر بالغ الأهمية عند ضبط النماذج باستخدام تحسين المعاملات التشعبية لضمان أداء قوي عبر ظروف متنوعة.
Link to this sectionتطبيقات العالم الحقيقي#
تمتد فائدة مقياس F1-Score عبر العديد من الصناعات حيث تكون تكلفة الخطأ كبيرة.
- Medical Diagnostics: In AI in healthcare, specifically for tasks like tumor detection, a false negative (missing a tumor) is life-threatening, while a false positive (flagging benign tissue) causes unnecessary anxiety. The F1-Score helps researchers optimize models like YOLO26 to ensure that the system is sensitive enough to catch diseases without overwhelming doctors with false alarms.
- استرجاع المعلومات والبحث: تستخدم محركات البحث وأنظمة تصنيف المستندات مقياس F1-Score لتقييم الصلة. يرغب المستخدمون في رؤية جميع المستندات ذات الصلة (استرجاع عالٍ) ولكنهم لا يريدون البحث في نتائج غير ذات صلة (دقة عالية). يشير مقياس F1-Score المرتفع إلى أن المحرك يسترجع المعلومات الصحيحة بفعالية دون تشتيت.
- Spam Filtering: Email services use text classification to segregate spam. The system must catch spam emails (recall) but crucially must not label important work emails as junk (precision). The F1-Score serves as the primary benchmark for these filters.
Link to this sectionحساب مقياس F1-Score باستخدام Ultralytics#
تعمل أطر عمل رؤية الحاسوب الحديثة على تبسيط حساب هذه المقاييس. عند تدريب نماذج كشف الكائنات، يتم حساب مقياس F1-Score تلقائياً أثناء مرحلة التحقق. تقوم منصة Ultralytics بتصور هذه المقاييس في رسوم بيانية لحظية، مما يسمح للمستخدمين برؤية منحنى F1-Score مقابل عتبات ثقة مختلفة.
إليك كيفية الوصول إلى مقاييس التحقق، بما في ذلك مكونات مقياس F1-Score، باستخدام واجهة برمجة تطبيقات Python:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Validate the model on a dataset (metrics are computed automatically)
# This returns a validator object containing precision, recall, and mAP
metrics = model.val(data="coco8.yaml")
# Print the Mean Average Precision (mAP50-95), which correlates with F1 performance
print(f"mAP50-95: {metrics.box.map}")
# Access precision and recall arrays to manually inspect the balance
print(f"Precision: {metrics.box.p}")
print(f"Recall: {metrics.box.r}")Link to this sectionF1-Score مقابل المقاييس ذات الصلة#
يعد فهم كيفية اختلاف مقياس F1-Score عن معايير التقييم الأخرى أمراً ضرورياً لاختيار الأداة المناسبة لمشروعك.
- الاختلاف عن الدقة (Accuracy): تعامل الدقة جميع الأخطاء بالتساوي. يعد مقياس F1-Score متفوقاً في حالة مجموعات البيانات غير المتوازنة لأنه يركز على أداء الفئة الإيجابية (فئة الأقلية محل الاهتمام).
- العلاقة بـ mAP: يعتبر متوسط دقة التنبؤ (mAP) هو المعيار القياسي لمقارنة نماذج كشف الكائنات عبر جميع عتبات الثقة. ومع ذلك، غالباً ما يُستخدم مقياس F1-Score لتحديد عتبة الثقة المثلى للنشر. يمكنك اختيار العتبة التي يصل عندها منحنى F1 إلى ذروته لنشر تطبيقك.
- مصفوفة الارتباك (Confusion Matrix): توفر مصفوفة الارتباك الأعداد الخام (الإيجابيات الحقيقية، الإيجابيات الخاطئة، إلخ) التي يُشتق منها مقياس F1-Score. بينما تعطي المصفوفة تفاصيل دقيقة، يوفر مقياس F1-Score إحصائية ملخصة واحدة للمقارنة السريعة.
- ROC-AUC: تقيس المساحة تحت المنحنى (AUC) قابلية الفصل عبر جميع العتبات. يُفضل عموماً استخدام مقياس F1-Score على ROC-AUC عندما يكون لديك توزيع فئوي منحرف للغاية (على سبيل المثال، اكتشاف الاحتيال حيث يكون الاحتيال نادراً).
Link to this sectionتحسين مقياس F1-Score الخاص بك#
إذا كان نموذجك يعاني من انخفاض في مقياس F1-Score، فهناك العديد من الاستراتيجيات التي يمكن أن تساعد. يمكن لـ تعزيز البيانات زيادة تنوع الأمثلة الإيجابية، مما يساعد النموذج على التعميم بشكل أفضل. يتيح استخدام التعلم بنقل المعرفة من النماذج التأسيسية القوية للشبكة الاستفادة من الميزات التي تم تعلمها مسبقاً. بالإضافة إلى ذلك، يمكن أن يؤدي ضبط عتبة الثقة أثناء الاستدلال يدوياً إلى تغيير التوازن بين الدقة والاسترجاع لتعظيم مقياس F1-Score لحالة الاستخدام الخاصة بك.






