استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

موثوقية المقيمين المتعددين: التعريف والأمثلة والحسابات

أبيرامي فينا

5 دقائق قراءة

18 أغسطس، 2025

فهم موثوقية المقيمين الداخليين، وكابا كوهين، و ICC، وتدريب المعدل والاتفاق المئوي. تعرف على كيف تضمن هذه المقاييس الإحصائية الاتساق والاتفاق بين المراقبين في البحث وتحليل البيانات.

عندما تقوم ببناء نموذج للذكاء الاصطناعي، فإن جودة بياناتك لا تقل أهمية عن الخوارزميات الكامنة وراءها. عندما يقوم العديد من الأشخاص بتسمية نفس البيانات أو مراجعتها، فمن المحتم أن تحدث خلافات. هذا صحيح في العديد من المجالات، بما في ذلك البحث والرعاية الصحية والتعليم.

على وجه الخصوص، في رؤية الحاسوب، وهو فرع من فروع الذكاء الاصطناعي يتضمن تدريب نماذج مثل Ultralytics YOLO11 لتفسير البيانات المرئية مثل الصور أو مقاطع الفيديو، تلعب الأمثلة المصنفة دورًا حاسمًا. إذا كانت هذه التصنيفات غير متناسقة، فقد تكافح نماذج رؤية الحاسوب لتعلم الأنماط الصحيحة.

يقيس موثوقية التقييم بين المقيمين (IRR) مدى توافق الأفراد المختلفين، أو القائمين بالتصنيف، على مهمة ما. فهو يساعد على مراقبة الاتساق وتحديد الثغرات في التدريب أو الإرشادات أو التفسير. وهذا مهم بشكل خاص في تدريب النماذج المخصصة، حيث يتم بناء نماذج الذكاء الاصطناعي باستخدام بيانات محددة لغرض معين.

في هذه المقالة، سوف نستكشف ما هو موثوقية التقييم بين المقيمين، وكيفية قياسها، وكيفية تحسينها عبر المشاريع الواقعية. هيا بنا نبدأ!

ما هو مقياس توافق المقيمين؟

تقيس موثوقية المقيمين المتعددين عدد المرات التي يتفق فيها شخصان أو أكثر (المعروفون أيضًا باسم المقيمين) عند تصنيف أو تقييم أو مراجعة نفس المحتوى. يتم استخدامه للتحقق من مدى اتساق استخدام المقيمين المختلفين لمعايير معينة. يعني الاتفاق العالي بين المقيمين أن المهمة محددة جيدًا ومفهومة بوضوح.

يستخدم هذا المفهوم في مختلف المجالات. اعتمادًا على المجال، يُعرف بأسماء مختلفة، مثل اتفاق المقيمين، أو موثوقية المراقبين، أو موثوقية المبرمجين. ومع ذلك، يظل المبدأ الأساسي كما هو.

في مجال الذكاء الاصطناعي البصري، يعد موثوقية التقييم بين المقيمين جزءًا أساسيًا من عملية تصنيف البيانات. غالبًا ما يتطلب تدريب نماذج الرؤية الحاسوبية تصنيف مجموعات بيانات ضخمة من الصور أو إطارات الفيديو، لذلك يعمل العديد من مطوري الذكاء الاصطناعي على نفس البيانات معًا.

للحصول على نتائج دقيقة، يجب عليهم اتباع نفس إرشادات وضع العلامات. على سبيل المثال، عند وضع علامات على الحيوانات، يحتاج الجميع إلى اتفاق واضح بشأن ما يعتبر كلبًا، وكيفية رسم المربع المحيط به، وما إذا كان سيتم وضع علامة على الكائنات الضبابية أو تجاهلها.

الشكل 1. فهم موثوقية التقييم بين المقيمين (صورة من إعداد المؤلف)

موثوقية المقيمين المتعددين مقابل موثوقية المقيم الواحد وموثوقية الاختبار وإعادة الاختبار

عندما يشارك الأشخاص في تصنيف البيانات أو تسجيلها، هناك ثلاثة أنواع رئيسية من الموثوقية يجب أخذها في الاعتبار. تخدم كل منها غرضًا مختلفًا في قياس مدى اتساق النتائج. إليك نظرة فاحصة على كل منها:

  • موثوقية التقييم بين المقيمين: تنظر موثوقية التقييم بين المقيمين في مقدار الاتفاق بين مختلف الأشخاص الذين يؤدون نفس المهمة. هذا مفيد بشكل خاص عندما يشارك العديد من المعلقين في مشاريع مثل تسمية الصور أو تحليل المشاعر أو المراجعات الطبية.
  • موثوقية التقييم داخل المقيم الواحد: إنه يحول التركيز إلى شخص واحد. تتحقق موثوقية التقييم داخل المقيم الواحد مما إذا كان المقيم يظل ثابتًا عند تكرار نفس المهمة في نقاط زمنية مختلفة. إذا تغيرت التصنيفات كثيرًا، فقد يكون ذلك نتيجة لإرشادات غير واضحة أو نقص في وضوح المهمة.
  • موثوقية الاختبار وإعادة الاختبار: لا تركز موثوقية الاختبار وإعادة الاختبار على مُعلِّم البيانات ولكن على الأداة أو الطريقة المستخدمة. وهي تقيس ما إذا كانت نفس النتيجة تظهر عند تكرار الاختبار في ظل ظروف مماثلة. إذا ظل الناتج ثابتًا، تعتبر الطريقة موثوقة. 

تساعد هذه الإجراءات معًا في التأكد من أن كلا من الأفراد والعمليات ينتجون نتائج ثابتة وموثوقة.

الشكل 2. نظرة عامة على الموثوقية بين المقيمين، وداخل المقيم، واختبار الإعادة (صورة من إعداد المؤلف)

لماذا يعتبر الاتساق بين المقيمين مهمًا؟

في مشاريع الرؤية الحاسوبية واسعة النطاق، تؤثر جودة البيانات المصنفة بشكل مباشر على مدى جودة أداء النموذج. حتى الاختلافات الصغيرة في كيفية تطبيق المصنفين للإرشادات يمكن أن تدخل تناقضات تربك النموذج أثناء التدريب. بمرور الوقت، يمكن أن يؤدي ذلك إلى تنبؤات غير دقيقة وموارد مهدرة والحاجة إلى إعادة تصنيف مكلفة.

يساعد قياس موثوقية المقيمين على اكتشاف هذه المشكلات مبكرًا. يعني الاتفاق العالي أن المعلقين متوافقون، مما ينتج مجموعات بيانات أنظف وأكثر موثوقية. يشير الاتفاق المنخفض إلى أن التعليمات أو الأمثلة أو التدريب قد تحتاج إلى تحسين قبل أن يمضي المشروع قدمًا. من خلال ضمان عمل مصنعي الملصقات في وقت واحد، يمكن للفرق بناء نماذج الذكاء الاصطناعي التي تتعلم بشكل أكثر فعالية وتقديم نتائج أفضل في تطبيقات العالم الحقيقي.

اعتبارات عملية لموثوقية التقييم بين المقيمين

فيما يلي بعض الاعتبارات العملية الرئيسية التي يجب وضعها في الاعتبار أثناء العمل مع مُقيِّمين متعددين والهدف من الحفاظ على موثوقية عالية بين المُقيِّمين:

  • المهام الغامضة أو الذاتية: عندما يتضمن التصنيف تفسيرًا، مثل تحديد ما إذا كان كائن ضبابي هو أحد المشاة أو الحكم على جودة الصورة، يساعد العديد من المقيمين في ضمان اتساق القرارات وعدم تأثرها بشكل مفرط بالتحيز الفردي.

  • مهام بسيطة وموضوعية: غالبًا ما تتطلب المهام المباشرة مثل عد عدد السيارات في الصورة أو التأكد من وجود كائن مقيِّمًا واحدًا مدربًا تدريباً جيداً فقط، حيث يكون الاتفاق مرتفعاً عادةً بمجرد تحديد العملية بوضوح.

  • إرشادات واضحة لوضع العلامات: تقلل الإرشادات التفصيلية سهلة الاتباع من عدم اليقين في كيفية تطبيق العلامات، مما يحسن الاتفاق بين المقيمين. يجب أن تغطي الإرشادات الحالات الهامشية بشكل صريح لمنع التفسيرات غير المتسقة.

  • التدريب والمعايرة الدوريان: حتى المقيمين ذوي الخبرة يمكن أن ينحرفوا في أحكامهم بمرور الوقت. تساعد الدورات التدريبية المنتظمة وفحوصات المعايرة في الحفاظ على الاتساق وتقليل تحيز المجرب.

مقاييس موثوقية المقيمين

هناك عدة طرق لقياس موثوقية التقييم بين المقيمين، ويعتمد الخيار الأفضل على نوع البيانات والمهمة. تعمل بعض الطرق بشكل جيد مع المقيمين الأفراد الذين يتعاملون مع أسئلة بسيطة بنعم أو لا، بينما تم تصميم طرق أخرى للمواقف التي تشمل مقيمين متعددين.

تشمل الأساليب الشائعة النسبة المئوية للاتفاق، ومعامل كابا لكوهين، ومعامل كابا لفليس، ومعامل الارتباط الداخلي. تقيس كل طريقة مستوى الاتفاق بين المقيمين وتراعي احتمالية حدوث بعض الاتفاق عن طريق الصدفة.

معامل كابا لكوهين ومعامل كابا لفليس

معامل كابا لكوهين هو طريقة مستخدمة على نطاق واسع لقياس موثوقية التقييم بين مقيّمين. يحسب عدد المرات التي يتفقون فيها على مهمة ما، مع تعديل لاحتمالية حدوث بعض الاتفاق عن طريق الصدفة. تتراوح الدرجات من -1 إلى 1، حيث تشير 1 إلى اتفاق تام و 0 تعني أن الاتفاق ليس أفضل من التخمين العشوائي.

وبالمثل، يتم استخدام Fleiss' Kappa عندما يشارك أكثر من مقيّمين. فهو يوفر درجة إجمالية توضح مدى اتساق المجموعة. تُستخدم كلتا الطريقتين للمهام ذات الفئات المحددة، مثل تسمية الصور أو وضع علامات على المشاعر. من السهل حسابها وتدعمها معظم أدوات التعليقات التوضيحية.

نسبة الاتفاق ومعامل الارتباط داخل الفئة (ICC)

هناك طريقة أخرى لقياس موثوقية التقييم بين المقيمين وهي نسبة الاتفاق، والتي تحسب النسبة المئوية لعدد المرات التي يتخذ فيها المقيمون نفس القرار. على الرغم من سهولة استخدامه، إلا أنه لا يأخذ في الاعتبار الاتفاق الذي قد يحدث عن طريق الصدفة.

وفي الوقت نفسه، فإن معامل الارتباط داخل الفئة هو طريقة أكثر تقدمًا تستخدم للبيانات المستمرة أو القائمة على المقاييس. وهو يقيس مدى اتساق التقييمات عبر العديد من المقيمين وغالبًا ما يتم تطبيقه في الأبحاث التي تتضمن الدرجات أو القياسات أو أنواع البيانات الأخرى بخلاف الفئات الثابتة.

أمثلة وتطبيقات لموثوقية التقييم بين المقيمين

الآن بعد أن أصبح لدينا فهم أفضل لكيفية قياس موثوقية التقييم بين المقيمين، دعنا نستعرض كيفية استخدام هذه الطرق في التطبيقات الواقعية.

موثوقية المقيمين المتعددين في ترميز الصور الطبية

عندما يتعلق الأمر بالتصوير الطبي، حتى الاختلافات الطفيفة في التفسير يمكن أن تؤدي إلى تغييرات كبيرة في النتائج. على سبيل المثال، غالبًا ما يُطلب من أخصائيي الأشعة تحديد الأنماط الدقيقة أو الغامضة أو التي يصعب تحديدها. عندما تصبح هذه الأنماط بيانات تدريب لأنظمة الذكاء الاصطناعي، فإن المخاطر تكون أعلى. إذا قام الخبراء بتسمية نفس الفحص بشكل مختلف، فقد يتعلم النموذج الأنماط الخاطئة أو يفشل في التعلم تمامًا.

تساعد موثوقية التقييم بين المقيمين الفرق التي تتعامل مع هذه البيانات على تقييم مدى اتساق أحكام الخبراء حقًا. على سبيل المثال، في دراسة حديثة ركزت على فحوصات التصوير المقطعي التوافقي البصري (OCT) للشبكية، قام مقيّمان بتصنيف 500 صورة. 

كان الاتفاق مرتفعًا بالنسبة للميزات الواضحة مثل الحُطَاطَات (ترسبات صفراء تحت الشبكية)، مع درجة كابا 0.87. ولكن بالنسبة للعناصر التي يصعب تحديدها مثل البؤر مفرطة الانعكاس (بقع صغيرة ومشرقة تظهر في فحوصات الشبكية)، انخفضت النتيجة إلى 0.33. وهذا يدل على أن الميزات الأكثر وضوحًا والأكثر تحديدًا تميل إلى إنتاج أحكام خبراء أكثر اتساقًا، في حين أن الميزات الغامضة تترك مجالًا أكبر للتفسير.

الشكل 3. أمثلة على تسميات لميزات مختلفة متعلقة بأمراض الشبكية (المصدر)

مجموعات بيانات المركبات ذاتية القيادة وموثوقية المقيمين

يعتمد تدريب نماذج الذكاء الاصطناعي لنظام قيادة ذاتية على تسميات دقيقة ومتسقة عبر مجموعة واسعة من ظروف الطريق. يُطلب من المعلقين الذين يعملون في مثل هذه المشاريع عادةً تحديد المشاة والمركبات وإشارات المرور وعلامات المسار، غالبًا في الإضاءة السيئة أو المشاهد المزدحمة. 

تشكل هذه القرارات الطريقة التي يتعلم بها النموذج الاستجابة في البيئات القاسية في العالم الحقيقي. تتيح موثوقية المقيمين للفرق التحقق مما إذا كانت هذه التصنيفات يتم تطبيقها بنفس الطريقة عبر المعلقين. 

الشكل 4. نظرة على الخلافات في إضافة التعليقات التوضيحية (المصدر)

ما وراء موثوقية المقيمين: تدابير أخرى لضمان الجودة

في حين أن قياس موثوقية المقيمين هو خطوة حاسمة في بناء حل للذكاء الاصطناعي، إلا أنه جزء من عملية أوسع لضمان الجودة. فيما يلي بعض الممارسات الأخرى التي يمكن أن تساعد في تحسين جودة البيانات عبر الفرق والمشاريع:

  • إرشادات توضيحية للترميز: يجب أن توضح الإرشادات بدقة كيفية تطبيق التصنيفات بحيث يعمل الجميع وفقًا لنفس المعيار.

  • التدريب والمعايرة: تساعد الجلسات المنتظمة المصنفين على البقاء على توافق وتمنحهم مساحة لطرح الأسئلة والتكيف مع الحالات الشاذة.

  • فحوصات الجودة المستمرة: يمكن لعمليات التحقق الموضعية وأمثلة المعايير الذهبية اكتشاف الأخطاء مبكرًا والحفاظ على جودة عالية مع توسع نطاق المشروع.

  • حل الخلاف: عندما يختلف المعلقون، يجب أن تكون هناك عملية واضحة لمراجعة هذه الحالات واتخاذ قرارات نهائية.

  • تنوع مجموعة المعلقين: يمكن لإشراك أشخاص من خلفيات مختلفة أن يقلل من التحيز ويحسن مدى تمثيل مجموعة البيانات للتباين في العالم الحقيقي.

النقاط الرئيسية

تقيس موثوقية المقيمين المتعددين مدى اتساق الأشخاص في تطبيق التصنيفات أو اتخاذ القرارات. تساعد طرق مثل Cohen’s Kappa و Fleiss’ Kappa و ICC في تحديد هذا الاتفاق كميًا. مع وجود إرشادات واضحة وتدريب والتحكم في التحيز، تؤدي الترميزات الموثوقة إلى بيانات أقوى ونتائج نموذج أفضل.

انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لاكتشاف المزيد حول الذكاء الاصطناعي. إذا كنت تتطلع إلى بدء مشروع الذكاء الاصطناعي البصري الخاص بك، فراجع خيارات الترخيص الخاصة بنا. يمكنك أيضًا معرفة كيف يُحدث الذكاء الاصطناعي في الرعاية الصحية و الذكاء الاصطناعي البصري في البيع بالتجزئة تأثيرًا من خلال زيارة صفحات الحلول الخاصة بنا.

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة