الموثوقية بين المُقيّمين: التعريف والأمثلة والحسابات

أبيرامي فينا

5 دقائق للقراءة

18 أغسطس 2025

فهم الموثوقية بين المُقيّمين، ومعيار كوهين كابا، ومعيار كوهين كابا، ومعيار ICC، ومعدل التدريب، ونسبة الاتفاق المئوية. تعلّم كيف تضمن هذه المقاييس الإحصائية الاتساق والاتفاق بين المراقبين في البحث وتحليل البيانات.

عندما تقوم ببناء نموذج للذكاء الاصطناعي، فإن جودة بياناتك لا تقل أهمية عن الخوارزميات التي تقف وراءها. عندما يقوم عدة أشخاص بتصنيف أو مراجعة نفس البيانات، لا بد أن تحدث خلافات. وهذا صحيح في العديد من المجالات، بما في ذلك البحث والرعاية الصحية والتعليم.

في مجال الرؤية الحاسوبية على وجه الخصوص، وهو فرع من فروع الذكاء الاصطناعي يتضمن نماذج تدريب مثل Ultralytics YOLO11 لتفسير البيانات المرئية مثل الصور أو مقاطع الفيديو، تلعب الأمثلة المصنفة دوراً حاسماً. إذا كانت هذه التسميات غير متناسقة، فقد تواجه نماذج الرؤية الحاسوبية صعوبة في تعلم الأنماط الصحيحة.

تقيس الموثوقية بين المُقيّمين (IRR) مدى اتساق اتفاق الأفراد المختلفين أو واضعي العلامات على مهمة ما. يساعد في مراقبة الاتساق وتحديد الثغرات في التدريب أو الإرشادات أو التفسير. وهذا مهم بشكل خاص في تدريب النماذج المخصصة، حيث يتم بناء نماذج الذكاء الاصطناعي باستخدام بيانات محددة لغرض معين.

في هذه المقالة، سنستكشف ما هي الموثوقية بين المُقيِّمين، وكيفية قياسها، وكيفية تحسينها عبر مشاريع العالم الحقيقي. لنبدأ!

ما هي الموثوقية بين المقيمين؟

تقيس الموثوقية بين المقيّمين عدد المرات التي يتفق فيها شخصان أو أكثر (يُعرفون أيضًا باسم المقيّمين) عند تصنيف أو تقييم أو مراجعة نفس المحتوى. وتُستخدم للتحقق من مدى اتساق استخدام المقيّمين المختلفين لمعايير معينة. ويعني الاتفاق العالي بين المقيّمين أن المهمة محددة جيدًا ومفهومة بوضوح.

يُستخدم هذا المفهوم في مجالات مختلفة. Depending on the field, it is known by different names, such as inter-rater agreement, interobserver reliability, or inter-coder reliability. ومع ذلك، يبقى المبدأ الأساسي هو نفسه.

في مجال الذكاء الاصطناعي البصري، تُعد الموثوقية بين المُقيّمين جزءًا أساسيًا من عملية تصنيف البيانات. يتطلب تدريب نماذج الرؤية الحاسوبية في كثير من الأحيان وضع علامات على مجموعات بيانات ضخمة من الصور أو إطارات الفيديو، لذلك يعمل العديد من مطوري الذكاء الاصطناعي على نفس البيانات معًا.

للحصول على نتائج دقيقة، عليهم اتباع نفس إرشادات التسمية. على سبيل المثال، عند وضع العلامات على الحيوانات، يحتاج الجميع إلى اتفاق واضح حول ما يعتبر كلباً، وكيفية رسم المربع المحيط به، وما إذا كان يجب وضع علامات على الأجسام الضبابية أو تجاهلها.

الشكل 1. فهم الموثوقية بين المقيمين (الصورة للمؤلف)

الموثوقية بين المُقيّمين مقابل الموثوقية بين المُقيّمين وموثوقية الاختبار-إعادة الاختبار

عندما يشارك الأشخاص في وضع العلامات أو تسجيل البيانات، هناك ثلاثة أنواع رئيسية من الموثوقية يجب أخذها في الاعتبار. يخدم كل منها غرضاً مختلفاً في قياس مدى اتساق النتائج. فيما يلي نظرة فاحصة على كل منها:

  • الموثوقية بين المُقيِّمين: تبحث الموثوقية بين المُعلّقين في مدى الاتفاق بين مختلف الأشخاص الذين يؤدون نفس المهمة. هذا مفيد بشكل خاص عندما يشارك العديد من الشارحين في مشاريع مثل تصنيف الصور أو تحليل المشاعر أو المراجعات الطبية.
  • الموثوقية داخل المُقَيِّم: تنقل التركيز إلى شخص واحد. تتحقق الموثوقية داخل المُقَيِّم من موثوقية المُقَيِّم الداخلي مما إذا كان المُقَيِّم يظل ثابتًا عند تكرار نفس المهمة في نقاط زمنية مختلفة. إذا تغيرت التسميات كثيرًا، فقد يكون ذلك نتيجة عدم وضوح الإرشادات أو عدم وضوح المهمة.
  • موثوقية الاختبار-إعادة الاختبار: لا تركز موثوقية الاختبار-إعادة الاختبار على الشارح بل على الأداة أو الطريقة المستخدمة. وهي تقيس ما إذا كانت النتيجة نفسها تظهر عند تكرار الاختبار في ظروف مماثلة. إذا ظلت النتيجة ثابتة، فإن الطريقة تعتبر موثوقة. 

وتساعد هذه التدابير مجتمعةً على تأكيد أن كلاً من الأشخاص والعمليات يحققان نتائج ثابتة وجديرة بالثقة.

الشكل 2. لمحة عامة عن الموثوقية بين المُقَيِّم والمُقَيِّم الداخلي وموثوقية الاختبار-إعادة الاختبار (الصورة من إعداد المؤلف)

ما أهمية الموثوقية بين المُقيِّمين؟

في مشاريع الذكاء الاصطناعي للرؤية على نطاق واسع، تؤثر جودة البيانات الموسومة بشكل مباشر على مدى جودة أداء النموذج. فحتى الاختلافات الصغيرة في كيفية تطبيق الشارحين للمبادئ التوجيهية يمكن أن تؤدي إلى حدوث تناقضات تربك النموذج أثناء التدريب. وبمرور الوقت، يمكن أن يؤدي ذلك إلى تنبؤات غير دقيقة، وإهدار الموارد، والحاجة إلى إعادة التسمية المكلفة.

يساعد قياس الموثوقية بين المُعلّقين على اكتشاف هذه المشاكل في وقت مبكر. يعني الاتفاق العالي أن الشارحين متوافقون، مما ينتج عنه مجموعات بيانات أنظف وأكثر موثوقية. بينما يشير الاتفاق المنخفض إلى أن التعليمات أو الأمثلة أو التدريب قد يحتاج إلى تنقيح قبل المضي قدماً في المشروع. من خلال ضمان عمل المُعلِّقين بشكل متزامن، يمكن للفرق بناء نماذج ذكاء اصطناعي تتعلم بشكل أكثر فعالية وتحقق نتائج أفضل في تطبيقات العالم الحقيقي.

الاعتبارات العملية للموثوقية بين المقيمين

فيما يلي بعض الاعتبارات العملية الرئيسية التي يجب أخذها في الاعتبار أثناء العمل مع مقيِّمين متعددين بهدف الحفاظ على موثوقية عالية بين المقيِّمين:

  • المهام الغامضة أو غير الموضوعية: عندما تنطوي عملية وضع العلامات على التفسير، مثل تحديد ما إذا كان جسم ضبابي هو أحد المشاة أو الحكم على جودة الصورة، يساعد تعدد المقيّمين على ضمان اتساق القرارات وعدم تأثرها بشكل مفرط بالتحيز الفردي.

  • المهام البسيطة والموضوعية: المهام المباشرة مثل عدّ عدد السيارات في صورة ما أو تأكيد ما إذا كان جسم ما موجودًا أم لا غالبًا ما تتطلب مقيّمًا واحدًا مدربًا جيدًا، حيث أن الاتفاق عادةً ما يكون مرتفعًا بمجرد تحديد العملية بوضوح.

  • إرشادات واضحة لوضع العلامات: إرشادات مفصلة وسهلة المتابعة تقلل من عدم اليقين في كيفية تطبيق التسميات، مما يحسن الاتفاق بين المقيّمين. يجب أن تغطي الإرشادات بشكل واضح الحالات الحادة لمنع التفسيرات غير المتسقة.

  • التدريب والمعايرة الدورية: يمكن حتى للمقيّمين ذوي الخبرة أن ينحرفوا في أحكامهم بمرور الوقت. وتساعد جلسات التدريب المنتظمة وفحوصات المعايرة على الحفاظ على الاتساق وتقليل تحيز المقيِّمين ذوي الخبرة.

مقاييس الموثوقية بين المُقيِّمين

هناك عدة طرق لقياس الموثوقية بين المقيّمين، ويعتمد الخيار الأفضل على نوع البيانات والمهمة. تعمل بعض الطرق بشكل جيد مع مقيّمين فرديين يتعاملون مع أسئلة بسيطة بنعم أو لا، بينما تم تصميم طرق أخرى للحالات التي تتضمن مقيّمين متعددين.

تشمل الأساليب الشائعة النسبة المئوية للاتفاق، وكوهين كابا، وفليس كابا، ومعامل الارتباط بين الفصول. تقيس كل طريقة مستوى الاتفاق بين المقيّمين وتأخذ في الحسبان إمكانية حدوث بعض الاتفاق بالصدفة.

كابا كوهين وكابا فلايس كابا

مؤشر كابا كوهين هو طريقة مستخدمة على نطاق واسع لقياس الموثوقية بين مقيمين اثنين. وهي تحسب عدد المرات التي يتفقان فيها على مهمة ما، مع تعديل احتمالية حدوث بعض الاتفاق بالصدفة. وتتراوح الدرجات من -1 إلى 1، حيث يشير الرقم 1 إلى الاتفاق التام والصفر يعني أن الاتفاق ليس أفضل من التخمين العشوائي.

وبالمثل، يتم استخدام معامل فلايس كابا عند وجود أكثر من مقيمين اثنين. وهو يوفر درجة إجمالية توضح مدى اتساق المجموعة. تُستخدم كلتا الطريقتين في المهام التي تحتوي على فئات محددة، مثل تصنيف الصور أو وضع علامات على المشاعر. وهي سهلة الحساب ومدعومة من قبل معظم أدوات التعليقات التوضيحية.

النسبة المئوية للاتفاق ومعامل الارتباط بين الفصول (ICC)

هناك طريقة أخرى لقياس الموثوقية بين المقيّمين وهي النسبة المئوية للاتفاق، والتي تحسب النسبة المئوية للمرات التي يتخذ فيها المقيّمون نفس القرار. وعلى الرغم من سهولة استخدامها، إلا أنها لا تأخذ في الحسبان الاتفاق الذي قد يحدث بالصدفة.

وفي الوقت نفسه، يعد معامل الارتباط داخل الصف طريقة أكثر تقدمًا تُستخدم للبيانات المستمرة أو القائمة على المقياس. وهو يقيس مدى اتساق التقييمات عبر مقيّمين متعددين، وغالباً ما يتم تطبيقه في الأبحاث التي تتضمن درجات أو قياسات أو أنواع بيانات أخرى غير الفئات الثابتة.

أمثلة وتطبيقات الموثوقية بين المراجعين

والآن بعد أن أصبح لدينا فهم أفضل لكيفية قياس الموثوقية بين المُقيِّمين، دعونا نستعرض كيف يمكن استخدام هذه الطرق في التطبيقات الواقعية.

الموثوقية بين المراجعين في التعليقات التوضيحية للتصوير الطبي

عندما يتعلق الأمر بالتصوير الطبي، حتى الاختلافات الطفيفة في التفسير يمكن أن تؤدي إلى تغييرات كبيرة في النتائج. على سبيل المثال، غالباً ما يُطلب من أخصائيي الأشعة تحديد الأنماط الدقيقة أو الغامضة أو التي يصعب تحديدها. وعندما تصبح هذه الأنماط بيانات تدريب لأنظمة الذكاء الاصطناعي، تصبح المخاطر أكبر. إذا قام الخبراء بتسمية نفس الفحص بشكل مختلف، فقد يتعلم النموذج الأنماط الخاطئة أو يفشل في التعلم تماماً.

تساعد الموثوقية بين المقيّمين الفرق التي تتعامل مع مثل هذه البيانات على تقييم مدى اتساق أحكام الخبراء. على سبيل المثال، في دراسة حديثة ركزت على فحوصات التصوير المقطعي البوزيتروني لشبكية العين، قام مقيمان بوضع علامات على 500 صورة. 

كان الاتفاق مرتفعًا بالنسبة للسمات الواضحة مثل الدروز (ترسبات صفراء تحت الشبكية)، حيث بلغت درجة الكابا 0.87. ولكن بالنسبة للعناصر التي يصعب تحديدها مثل البؤر شديدة الانعكاس (البقع الصغيرة المضيئة التي تظهر في عمليات مسح الشبكية)، انخفضت النتيجة إلى 0.33. وهذا يدل على أن السمات الأكثر وضوحاً والأكثر تحديداً تميل إلى إصدار أحكام خبراء أكثر اتساقاً، في حين أن السمات الغامضة تترك مجالاً أكبر للتفسير.

الشكل 3. أمثلة على تسميات لمختلف السمات المتعلقة بأمراض الشبكية(المصدر)

مجموعات بيانات المركبات ذاتية القيادة والموثوقية بين المقيمين

يعتمد تدريب نماذج الذكاء الاصطناعي لنظام القيادة الذاتية على تسميات دقيقة ومتسقة عبر مجموعة واسعة من ظروف الطريق. وعادةً ما يُطلب من المُعلِّقين الذين يعملون في مثل هذه المشاريع تحديد المشاة والمركبات وإشارات المرور وعلامات المسارات، وغالباً ما يكون ذلك في ظروف الإضاءة الضعيفة أو المشاهد المزدحمة. 

تشكل هذه القرارات كيفية تعلم النموذج الاستجابة في بيئات العالم الحقيقي القاسية. تتيح الموثوقية بين المُعلّقين للفرق إمكانية التحقق مما إذا كانت هذه التسميات يتم تطبيقها بنفس الطريقة بين المُعلّقين. 

الشكل 4. نظرة على اختلافات التعليقات التوضيحية(المصدر)

ما وراء الموثوقية بين المُقيّمين: مقاييس ضمان الجودة الأخرى

في حين أن قياس الموثوقية بين المُقيّمين خطوة حاسمة في بناء حل الذكاء الاصطناعي، إلا أنها جزء من عملية ضمان الجودة الأوسع نطاقاً. فيما يلي بعض الممارسات الأخرى التي يمكن أن تساعد في تحسين جودة البيانات عبر الفرق والمشاريع:

  • إرشادات واضحة للتعليقات التوضيحية: يجب أن توضح التعليمات بالضبط كيفية تطبيق التسميات بحيث يعمل الجميع من نفس المعيار.

  • التدريب والمعايرة: تساعد الجلسات المنتظمة الشارحين على الحفاظ على المواءمة وتمنحهم مساحة لطرح الأسئلة والتكيف مع الحالات الحادة.

  • فحوصات الجودة المستمرة: يمكن أن تؤدي عمليات الفحص الفوري والأمثلة القياسية الذهبية إلى اكتشاف الأخطاء في وقت مبكر والحفاظ على الجودة العالية مع توسع المشروع.

  • حل الخلافات: عندما يختلف الشارحون، يجب أن تكون هناك عملية واضحة لمراجعة تلك الحالات واتخاذ القرارات النهائية.

  • مجموعة متنوعة من الشارحين: يمكن أن يؤدي إشراك أشخاص من خلفيات مختلفة إلى تقليل التحيز وتحسين مدى تمثيل مجموعة البيانات للتنوع في العالم الحقيقي.

الوجبات الرئيسية

تقيس الموثوقية بين المقيمين مدى اتساق الأشخاص في تطبيق التصنيفات أو اتخاذ القرارات. وتساعد طرق مثل كابا كوهين وكابا فلايس وكابا فلايس و ICC في قياس هذا الاتفاق. ومن خلال المبادئ التوجيهية الواضحة والتدريب والتحكم في التحيز، تؤدي التعليقات التوضيحية الموثوقة إلى بيانات أقوى ونتائج نموذجية أفضل.

انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لاكتشاف المزيد عن الذكاء الاصطناعي. إذا كنت تتطلع إلى بدء مشروعك الخاص بالذكاء الاصطناعي المرئي (Vision AI)، اطلع على خيارات الترخيص لدينا. يمكنك أيضًا الاطلاع على كيفية تأثير الذكاء الاصطناعي في مجال الرعاية الصحية والذكاء الاصطناعي المرئي في مجال البيع بالتجزئة من خلال زيارة صفحات الحلول الخاصة بنا.

دعونا نبني المستقبل
للذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل التعلم الآلي

ابدأ مجاناً
تم نسخ الرابط إلى الحافظة