الموثوقية بين المقيمين: التعريف، الأمثلة، الحسابات
افهم الموثوقية بين المقيمين (inter-rater reliability)، ومعامل Cohen's Kappa، وICC، وتدريب المقيمين، ونسبة الاتفاق. تعرَّف على كيفية ضمان هذه المقاييس الإحصائية للاتساق والاتفاق بين المراقبين في البحث وتحليل البيانات.

عند بناء نموذج ذكاء اصطناعي، تكون جودة بياناتك بنفس أهمية الخوارزميات الكامنة وراءها. كلما قام عدة أشخاص بتصنيف أو مراجعة نفس البيانات، لا بد من حدوث خلافات. هذا صحيح في العديد من المجالات، بما في ذلك البحث، الرعاية الصحية، والتعليم.
على وجه الخصوص، في رؤية الكمبيوتر، وهو فرع من الذكاء الاصطناعي يتضمن تدريب نماذج مثل Ultralytics YOLO11 لتفسير البيانات المرئية مثل الصور أو مقاطع الفيديو، تلعب الأمثلة المصنفة دورًا حاسمًا. إذا كانت تلك التصنيفات غير متسقة، فقد تجد نماذج رؤية الكمبيوتر صعوبة في تعلم الأنماط الصحيحة.
تقيس موثوقية المقيمين (IRR) مدى اتساق أفراد مختلفين، أو مصنفين، في الاتفاق على مهمة ما. فهي تساعد في مراقبة الاتساق وتحديد الفجوات في التدريب، أو الإرشادات، أو التفسير. وهذا مهم بشكل خاص في تدريب النماذج المخصصة، حيث يتم بناء نماذج الذكاء الاصطناعي باستخدام بيانات محددة لغرض معين.
في هذه المقالة، سنستكشف ماهية موثوقية المقيمين، وكيفية قياسها، وكيفية تحسينها عبر مشاريع العالم الحقيقي. لنبدأ!
Link to this sectionما هي موثوقية المقيمين؟#
تقيس موثوقية المقيمين عدد المرات التي يتفق فيها شخصان أو أكثر (يُعرفون أيضاً بالمقيمين) عند تصنيف أو تقييم أو مراجعة نفس المحتوى. تُستخدم للتحقق من مدى اتساق المقيمين المختلفين في استخدام معايير محددة. يعني الاتفاق العالي بين المقيمين أن المهمة محددة جيداً ومفهومة بوضوح.
يُستخدم هذا المفهوم في مجالات مختلفة. اعتماداً على المجال، يُعرف بأسماء مختلفة، مثل اتفاق المقيمين، موثوقية المراقبين، أو موثوقية المبرمجين. ومع ذلك، يظل المبدأ الأساسي كما هو.
في رؤية الذكاء الاصطناعي، تعد موثوقية المقيمين جزءاً أساسياً من عملية تصنيف البيانات. غالباً ما يتطلب تدريب نماذج رؤية الكمبيوتر تصنيف مجموعات بيانات ضخمة من الصور أو إطارات الفيديو، لذا يعمل العديد من مطوري الذكاء الاصطناعي على نفس البيانات معاً.
للحصول على نتائج دقيقة، يجب عليهم اتباع نفس إرشادات التصنيف. على سبيل المثال، عند تصنيف الحيوانات، يحتاج الجميع إلى اتفاق واضح حول ما يُعد كلباً، وكيفية رسم مربع الإحاطة حوله، وما إذا كان يجب تصنيف الكائنات الضبابية أو تجاهلها.

الشكل 1. فهم موثوقية المقيمين (صورة من إعداد المؤلف)
Link to this sectionموثوقية المقيمين مقابل موثوقية المقيم الواحد وموثوقية الاختبار وإعادة الاختبار#
عندما يشارك الأشخاص في تصنيف أو تسجيل البيانات، هناك ثلاثة أنواع رئيسية من الموثوقية يجب مراعاتها. يخدم كل منها غرضاً مختلفاً في قياس مدى اتساق النتائج. إليكم نظرة فاحصة على كل منها:
-
موثوقية المقيمين: تنظر موثوقية المقيمين إلى مقدار الاتفاق الموجود بين أشخاص مختلفين يؤدون نفس المهمة. وهذا مفيد بشكل خاص عندما يشارك العديد من المصنفين في مشاريع مثل تصنيف الصور، تحليل المشاعر، أو المراجعات الطبية.
-
موثوقية المقيم الواحد: تحول التركيز إلى شخص واحد. تتحقق موثوقية المقيم الواحد مما إذا كان المقيم يظل متسقاً عند تكرار نفس المهمة في أوقات مختلفة. إذا تغيرت التصنيفات كثيراً، فقد يكون ذلك نتيجة لإرشادات غير واضحة أو نقص في وضوح المهمة.
-
موثوقية الاختبار وإعادة الاختبار: لا تركز موثوقية الاختبار وإعادة الاختبار على المصنف بل على الأداة أو الطريقة المستخدمة. فهي تقيس ما إذا كانت نفس النتيجة تظهر عند تكرار الاختبار في ظل ظروف مماثلة. إذا ظلت المخرجات متسقة، تُعتبر الطريقة موثوقة.
معاً، تساعد هذه المقاييس في التأكيد على أن كلاً من الأشخاص والعمليات ينتجون نتائج ثابتة وجديرة بالثقة.

الشكل 2. نظرة عامة على موثوقية المقيمين، وموثوقية المقيم الواحد، وموثوقية الاختبار وإعادة الاختبار (صورة من إعداد المؤلف)
Link to this sectionلماذا تعتبر موثوقية المقيمين مهمة؟#
في مشاريع رؤية الذكاء الاصطناعي واسعة النطاق، تؤثر جودة البيانات المصنفة بشكل مباشر على مدى أداء النموذج. حتى الاختلافات الصغيرة في كيفية تطبيق المصنفين للإرشادات يمكن أن تؤدي إلى تناقضات تربك النموذج أثناء التدريب. بمرور الوقت، يمكن أن يؤدي ذلك إلى تنبؤات غير دقيقة، وإهدار الموارد، والحاجة إلى إعادة تصنيف مكلفة.
يساعد قياس موثوقية المقيمين في اكتشاف هذه المشكلات مبكراً. يعني الاتفاق العالي أن المصنفين متوافقون، مما ينتج مجموعات بيانات أنظف وأكثر موثوقية. يشير الاتفاق المنخفض إلى أن التعليمات أو الأمثلة أو التدريب قد تحتاج إلى تنقيح قبل أن يمضي المشروع قدماً. من خلال ضمان عمل المصنفين في انسجام، يمكن للفرق بناء نماذج ذكاء اصطناعي تتعلم بفعالية أكبر وتقدم نتائج أفضل في تطبيقات العالم الحقيقي.
Link to this sectionاعتبارات عملية لموثوقية المقيمين#
إليك بعض الاعتبارات العملية الرئيسية التي يجب وضعها في الاعتبار أثناء العمل مع مقيمين متعددين والسعي للحفاظ على موثوقية عالية بين المقيمين:
- المهام الغامضة أو الذاتية: عندما يتضمن التصنيف التفسير، مثل تحديد ما إذا كان كائن ضبابي هو أحد المشاة أو الحكم على جودة صورة ما، يساعد المقيمون المتعددون في ضمان أن القرارات متسقة ولا تتأثر بشكل مفرط بالتحيز الفردي.
- المهام البسيطة والموضوعية: المهام المباشرة مثل عد عدد السيارات في صورة ما أو تأكيد ما إذا كان كائن ما موجوداً غالباً ما تتطلب مقيماً واحداً مدرباً جيداً، حيث يكون الاتفاق مرتفعاً عادةً بمجرد تحديد العملية بوضوح.
- إرشادات تصنيف واضحة: تقلل التعليمات المفصلة وسهلة المتابعة من عدم اليقين في كيفية تطبيق التصنيفات، مما يحسن الاتفاق عبر المقيمين. يجب أن تغطي الإرشادات بشكل صريح الحالات الطرفية لمنع التفسيرات غير المتسقة.
- التدريب والمعايرة الدورية: حتى المقيمون ذوو الخبرة يمكن أن تنحرف أحكامهم بمرور الوقت. تساعد جلسات التدريب المنتظمة وفحوصات المعايرة في الحفاظ على الاتساق وتقليل تحيز القائم بالتجربة.
Link to this sectionمقاييس موثوقية المقيمين#
هناك عدة طرق لقياس موثوقية المقيمين، ويعتمد الخيار الأفضل على نوع البيانات والمهمة. تعمل بعض الطرق بشكل جيد مع المقيمين المنفردين الذين يتعاملون مع أسئلة بسيطة بـ "نعم" أو "لا"، بينما تم تصميم طرق أخرى للمواقف التي تنطوي على مقيمين متعددين.
تشمل النهج الشائعة نسبة الاتفاق، ومعامل كوهين كابا، وفليس كابا، ومعامل الارتباط داخل الفئة. تقيس كل طريقة مستوى الاتفاق بين المقيمين وتأخذ في الاعتبار احتمالية حدوث بعض الاتفاق عن طريق الصدفة.
Link to this sectionكوهين كابا وفليس كابا#
يعتبر كوهين كابا طريقة مستخدمة على نطاق واسع لقياس موثوقية المقيمين بين اثنين من المقيمين. وهي تحسب عدد مرات اتفاقهما في مهمة ما، مع تعديل احتمالية أن يكون جزء من الاتفاق قد حدث عن طريق الصدفة. تتراوح الدرجات من -1 إلى 1، حيث تشير 1 إلى اتفاق تام و0 تعني أن الاتفاق لا يتجاوز التخمين العشوائي.
بالمثل، يُستخدم فليس كابا عندما يشارك أكثر من مقيمين اثنين. وهو يوفر درجة إجمالية توضح مدى اتساق المجموعة. تُستخدم كلتا الطريقتين للمهام ذات الفئات المحددة، مثل تصنيف الصور أو تصنيف المشاعر. وهي سهلة الحساب ومدعومة من قبل معظم أدوات التصنيف.
Link to this sectionنسبة الاتفاق ومعامل الارتباط داخل الفئة (ICC)#
طريقة أخرى لقياس موثوقية المقيمين هي نسبة الاتفاق، التي تحسب النسبة المئوية للمرات التي يتخذ فيها المقيمون نفس القرار. وعلى الرغم من سهولة استخدامها، إلا أنها لا تأخذ في الاعتبار الاتفاق الذي قد يحدث عن طريق الصدفة.
وفي الوقت نفسه، يُعد معامل الارتباط داخل الفئة طريقة أكثر تقدماً تُستخدم للبيانات المستمرة أو القائمة على مقياس. فهو يقيس مدى اتساق التقييمات عبر مقيمين متعددين وغالباً ما يُطبق في الأبحاث التي تتضمن درجات، أو قياسات، أو أنواع بيانات أخرى تتجاوز الفئات الثابتة.
Link to this sectionأمثلة وتطبيقات موثوقية المقيمين#
الآن بعد أن أصبح لدينا فهم أفضل لكيفية قياس موثوقية المقيمين، دعنا نستعرض كيف يمكن استخدام هذه الطرق في تطبيقات العالم الحقيقي.
Link to this sectionموثوقية المقيمين في تصنيف التصوير الطبي#
عندما يتعلق الأمر بالتصوير الطبي، يمكن حتى للاختلافات الطفيفة في التفسير أن تؤدي إلى تغييرات كبيرة في النتائج. على سبيل المثال، غالباً ما يُطلب من أطباء الأشعة تحديد أنماط دقيقة، أو غامضة، أو يصعب تعريفها. عندما تصبح تلك الأنماط بيانات تدريب لأنظمة الذكاء الاصطناعي، تكون المخاطر أعلى. إذا قام الخبراء بتصنيف نفس الفحص بشكل مختلف، فقد يتعلم النموذج أنماطاً خاطئة أو يفشل في التعلم تماماً.
تساعد موثوقية المقيمين الفرق التي تتعامل مع هذه البيانات في تقييم مدى اتساق أحكام الخبراء حقاً. على سبيل المثال، في دراسة حديثة ركزت على مسوحات الشبكية OCT، قام مقيمان بتصنيف 500 صورة.
كان الاتفاق مرتفعاً بالنسبة للميزات الواضحة مثل التكلسات (ترسبات صفراء تحت الشبكية)، مع درجة كابا تبلغ 0.87. ولكن بالنسبة للعناصر التي يصعب تعريفها مثل البؤر فائقة الانعكاس (بقع صغيرة ومشرقة تظهر في مسوحات الشبكية)، انخفضت الدرجة إلى 0.33. يوضح هذا أن الميزات الأكثر وضوحاً وتحديداً تميل إلى إنتاج أحكام خبراء أكثر اتساقاً، بينما تترك الميزات الغامضة مجالاً أكبر للتفسير.

الشكل 3. أمثلة على تصنيفات لميزات مختلفة تتعلق بأمراض الشبكية (المصدر)
Link to this sectionمجموعات بيانات المركبات ذاتية القيادة وموثوقية المقيمين#
يعتمد تدريب نماذج الذكاء الاصطناعي لنظام القيادة الذاتية على تصنيفات دقيقة ومتسقة عبر مجموعة واسعة من ظروف الطريق. عادة ما يُطلب من المصنفين العاملين في مثل هذه المشاريع تحديد المشاة، والمركبات، وعلامات المرور، وعلامات الحارات، غالباً في إضاءة ضعيفة أو مشاهد مزدحمة.
تشكل هذه القرارات كيفية تعلم النموذج للاستجابة في بيئات العالم الحقيقي القاسية. تجعل موثوقية المقيمين من الممكن للفرق التحقق مما إذا كانت تلك التصنيفات تُطبق بنفس الطريقة عبر المصنفين.

الشكل 4. نظرة على خلافات التصنيف (المصدر)
Link to this sectionما وراء موثوقية المقيمين: تدابير ضمان الجودة الأخرى#
بينما يعد قياس موثوقية المقيمين خطوة حاسمة في بناء حل ذكاء اصطناعي، إلا أنه جزء من عملية أوسع لضمان الجودة. فيما يلي بعض الممارسات الأخرى التي يمكن أن تساعد في تحسين جودة البيانات عبر الفرق والمشاريع:
- إرشادات تصنيف واضحة: يجب أن تشرح التعليمات بالضبط كيفية تطبيق التصنيفات بحيث يعمل الجميع وفقاً لنفس المعيار.
- التدريب والمعايرة: تساعد الجلسات المنتظمة المصنفين في البقاء على توافق وتمنحهم مساحة لطرح الأسئلة والتكيف مع الحالات الطرفية.
- فحوصات الجودة المستمرة: يمكن للفحوصات العشوائية وأمثلة المعايير الذهبية اكتشاف الأخطاء مبكراً والحفاظ على جودة عالية مع توسع المشروع.
- حل الخلافات: عندما يختلف المصنفون، يجب أن تكون هناك عملية واضحة لمراجعة تلك الحالات واتخاذ قرارات نهائية.
- مجموعة متنوعة من المصنفين: يمكن أن يؤدي إشراك أشخاص من خلفيات مختلفة إلى تقليل التحيز وتحسين مدى تمثيل مجموعة البيانات لتنوع العالم الحقيقي.
Link to this sectionأبرز النقاط#
تقيس موثوقية المقيمين مدى اتساق الأشخاص في تطبيق التصنيفات أو اتخاذ القرارات. تساعد طرق مثل كوهين كابا، وفليس كابا، وICC في قياس هذا الاتفاق. مع وجود إرشادات واضحة، وتدريب، والتحكم في التحيز، تؤدي التصنيفات الموثوقة إلى بيانات أقوى ونتائج نماذج أفضل.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لاكتشاف المزيد عن الذكاء الاصطناعي. إذا كنت تتطلع إلى بدء مشروعك الخاص في رؤية الذكاء الاصطناعي، تحقق من خيارات الترخيص لدينا. يمكنك أيضاً معرفة كيف يؤثر الذكاء الاصطناعي في الرعاية الصحية ورؤية الذكاء الاصطناعي في تجارة التجزئة من خلال زيارة صفحات الحلول الخاصة بنا.






