فهم موثوقية المقيمين الداخليين، وكابا كوهين، و ICC، وتدريب المعدل والاتفاق المئوي. تعرف على كيف تضمن هذه المقاييس الإحصائية الاتساق والاتفاق بين المراقبين في البحث وتحليل البيانات.

فهم موثوقية المقيمين الداخليين، وكابا كوهين، و ICC، وتدريب المعدل والاتفاق المئوي. تعرف على كيف تضمن هذه المقاييس الإحصائية الاتساق والاتفاق بين المراقبين في البحث وتحليل البيانات.
عندما تقوم ببناء نموذج للذكاء الاصطناعي، فإن جودة بياناتك لا تقل أهمية عن الخوارزميات الكامنة وراءها. عندما يقوم العديد من الأشخاص بتسمية نفس البيانات أو مراجعتها، فمن المحتم أن تحدث خلافات. هذا صحيح في العديد من المجالات، بما في ذلك البحث والرعاية الصحية والتعليم.
على وجه الخصوص، في رؤية الحاسوب، وهو فرع من فروع الذكاء الاصطناعي يتضمن تدريب نماذج مثل Ultralytics YOLO11 لتفسير البيانات المرئية مثل الصور أو مقاطع الفيديو، تلعب الأمثلة المصنفة دورًا حاسمًا. إذا كانت هذه التصنيفات غير متناسقة، فقد تكافح نماذج رؤية الحاسوب لتعلم الأنماط الصحيحة.
يقيس موثوقية التقييم بين المقيمين (IRR) مدى توافق الأفراد المختلفين، أو القائمين بالتصنيف، على مهمة ما. فهو يساعد على مراقبة الاتساق وتحديد الثغرات في التدريب أو الإرشادات أو التفسير. وهذا مهم بشكل خاص في تدريب النماذج المخصصة، حيث يتم بناء نماذج الذكاء الاصطناعي باستخدام بيانات محددة لغرض معين.
في هذه المقالة، سوف نستكشف ما هو موثوقية التقييم بين المقيمين، وكيفية قياسها، وكيفية تحسينها عبر المشاريع الواقعية. هيا بنا نبدأ!
تقيس موثوقية المقيمين المتعددين عدد المرات التي يتفق فيها شخصان أو أكثر (المعروفون أيضًا باسم المقيمين) عند تصنيف أو تقييم أو مراجعة نفس المحتوى. يتم استخدامه للتحقق من مدى اتساق استخدام المقيمين المختلفين لمعايير معينة. يعني الاتفاق العالي بين المقيمين أن المهمة محددة جيدًا ومفهومة بوضوح.
يستخدم هذا المفهوم في مختلف المجالات. اعتمادًا على المجال، يُعرف بأسماء مختلفة، مثل اتفاق المقيمين، أو موثوقية المراقبين، أو موثوقية المبرمجين. ومع ذلك، يظل المبدأ الأساسي كما هو.
في مجال الذكاء الاصطناعي البصري، يعد موثوقية التقييم بين المقيمين جزءًا أساسيًا من عملية تصنيف البيانات. غالبًا ما يتطلب تدريب نماذج الرؤية الحاسوبية تصنيف مجموعات بيانات ضخمة من الصور أو إطارات الفيديو، لذلك يعمل العديد من مطوري الذكاء الاصطناعي على نفس البيانات معًا.
للحصول على نتائج دقيقة، يجب عليهم اتباع نفس إرشادات وضع العلامات. على سبيل المثال، عند وضع علامات على الحيوانات، يحتاج الجميع إلى اتفاق واضح بشأن ما يعتبر كلبًا، وكيفية رسم المربع المحيط به، وما إذا كان سيتم وضع علامة على الكائنات الضبابية أو تجاهلها.
عندما يشارك الأشخاص في تصنيف البيانات أو تسجيلها، هناك ثلاثة أنواع رئيسية من الموثوقية يجب أخذها في الاعتبار. تخدم كل منها غرضًا مختلفًا في قياس مدى اتساق النتائج. إليك نظرة فاحصة على كل منها:
تساعد هذه الإجراءات معًا في التأكد من أن كلا من الأفراد والعمليات ينتجون نتائج ثابتة وموثوقة.
في مشاريع الرؤية الحاسوبية واسعة النطاق، تؤثر جودة البيانات المصنفة بشكل مباشر على مدى جودة أداء النموذج. حتى الاختلافات الصغيرة في كيفية تطبيق المصنفين للإرشادات يمكن أن تدخل تناقضات تربك النموذج أثناء التدريب. بمرور الوقت، يمكن أن يؤدي ذلك إلى تنبؤات غير دقيقة وموارد مهدرة والحاجة إلى إعادة تصنيف مكلفة.
يساعد قياس موثوقية المقيمين على اكتشاف هذه المشكلات مبكرًا. يعني الاتفاق العالي أن المعلقين متوافقون، مما ينتج مجموعات بيانات أنظف وأكثر موثوقية. يشير الاتفاق المنخفض إلى أن التعليمات أو الأمثلة أو التدريب قد تحتاج إلى تحسين قبل أن يمضي المشروع قدمًا. من خلال ضمان عمل مصنعي الملصقات في وقت واحد، يمكن للفرق بناء نماذج الذكاء الاصطناعي التي تتعلم بشكل أكثر فعالية وتقديم نتائج أفضل في تطبيقات العالم الحقيقي.
فيما يلي بعض الاعتبارات العملية الرئيسية التي يجب وضعها في الاعتبار أثناء العمل مع مُقيِّمين متعددين والهدف من الحفاظ على موثوقية عالية بين المُقيِّمين:
هناك عدة طرق لقياس موثوقية التقييم بين المقيمين، ويعتمد الخيار الأفضل على نوع البيانات والمهمة. تعمل بعض الطرق بشكل جيد مع المقيمين الأفراد الذين يتعاملون مع أسئلة بسيطة بنعم أو لا، بينما تم تصميم طرق أخرى للمواقف التي تشمل مقيمين متعددين.
تشمل الأساليب الشائعة النسبة المئوية للاتفاق، ومعامل كابا لكوهين، ومعامل كابا لفليس، ومعامل الارتباط الداخلي. تقيس كل طريقة مستوى الاتفاق بين المقيمين وتراعي احتمالية حدوث بعض الاتفاق عن طريق الصدفة.
معامل كابا لكوهين هو طريقة مستخدمة على نطاق واسع لقياس موثوقية التقييم بين مقيّمين. يحسب عدد المرات التي يتفقون فيها على مهمة ما، مع تعديل لاحتمالية حدوث بعض الاتفاق عن طريق الصدفة. تتراوح الدرجات من -1 إلى 1، حيث تشير 1 إلى اتفاق تام و 0 تعني أن الاتفاق ليس أفضل من التخمين العشوائي.
وبالمثل، يتم استخدام Fleiss' Kappa عندما يشارك أكثر من مقيّمين. فهو يوفر درجة إجمالية توضح مدى اتساق المجموعة. تُستخدم كلتا الطريقتين للمهام ذات الفئات المحددة، مثل تسمية الصور أو وضع علامات على المشاعر. من السهل حسابها وتدعمها معظم أدوات التعليقات التوضيحية.
هناك طريقة أخرى لقياس موثوقية التقييم بين المقيمين وهي نسبة الاتفاق، والتي تحسب النسبة المئوية لعدد المرات التي يتخذ فيها المقيمون نفس القرار. على الرغم من سهولة استخدامه، إلا أنه لا يأخذ في الاعتبار الاتفاق الذي قد يحدث عن طريق الصدفة.
وفي الوقت نفسه، فإن معامل الارتباط داخل الفئة هو طريقة أكثر تقدمًا تستخدم للبيانات المستمرة أو القائمة على المقاييس. وهو يقيس مدى اتساق التقييمات عبر العديد من المقيمين وغالبًا ما يتم تطبيقه في الأبحاث التي تتضمن الدرجات أو القياسات أو أنواع البيانات الأخرى بخلاف الفئات الثابتة.
الآن بعد أن أصبح لدينا فهم أفضل لكيفية قياس موثوقية التقييم بين المقيمين، دعنا نستعرض كيفية استخدام هذه الطرق في التطبيقات الواقعية.
عندما يتعلق الأمر بالتصوير الطبي، حتى الاختلافات الطفيفة في التفسير يمكن أن تؤدي إلى تغييرات كبيرة في النتائج. على سبيل المثال، غالبًا ما يُطلب من أخصائيي الأشعة تحديد الأنماط الدقيقة أو الغامضة أو التي يصعب تحديدها. عندما تصبح هذه الأنماط بيانات تدريب لأنظمة الذكاء الاصطناعي، فإن المخاطر تكون أعلى. إذا قام الخبراء بتسمية نفس الفحص بشكل مختلف، فقد يتعلم النموذج الأنماط الخاطئة أو يفشل في التعلم تمامًا.
تساعد موثوقية التقييم بين المقيمين الفرق التي تتعامل مع هذه البيانات على تقييم مدى اتساق أحكام الخبراء حقًا. على سبيل المثال، في دراسة حديثة ركزت على فحوصات التصوير المقطعي التوافقي البصري (OCT) للشبكية، قام مقيّمان بتصنيف 500 صورة.
كان الاتفاق مرتفعًا بالنسبة للميزات الواضحة مثل الحُطَاطَات (ترسبات صفراء تحت الشبكية)، مع درجة كابا 0.87. ولكن بالنسبة للعناصر التي يصعب تحديدها مثل البؤر مفرطة الانعكاس (بقع صغيرة ومشرقة تظهر في فحوصات الشبكية)، انخفضت النتيجة إلى 0.33. وهذا يدل على أن الميزات الأكثر وضوحًا والأكثر تحديدًا تميل إلى إنتاج أحكام خبراء أكثر اتساقًا، في حين أن الميزات الغامضة تترك مجالًا أكبر للتفسير.
يعتمد تدريب نماذج الذكاء الاصطناعي لنظام قيادة ذاتية على تسميات دقيقة ومتسقة عبر مجموعة واسعة من ظروف الطريق. يُطلب من المعلقين الذين يعملون في مثل هذه المشاريع عادةً تحديد المشاة والمركبات وإشارات المرور وعلامات المسار، غالبًا في الإضاءة السيئة أو المشاهد المزدحمة.
تشكل هذه القرارات الطريقة التي يتعلم بها النموذج الاستجابة في البيئات القاسية في العالم الحقيقي. تتيح موثوقية المقيمين للفرق التحقق مما إذا كانت هذه التصنيفات يتم تطبيقها بنفس الطريقة عبر المعلقين.
في حين أن قياس موثوقية المقيمين هو خطوة حاسمة في بناء حل للذكاء الاصطناعي، إلا أنه جزء من عملية أوسع لضمان الجودة. فيما يلي بعض الممارسات الأخرى التي يمكن أن تساعد في تحسين جودة البيانات عبر الفرق والمشاريع:
تقيس موثوقية المقيمين المتعددين مدى اتساق الأشخاص في تطبيق التصنيفات أو اتخاذ القرارات. تساعد طرق مثل Cohen’s Kappa و Fleiss’ Kappa و ICC في تحديد هذا الاتفاق كميًا. مع وجود إرشادات واضحة وتدريب والتحكم في التحيز، تؤدي الترميزات الموثوقة إلى بيانات أقوى ونتائج نموذج أفضل.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لاكتشاف المزيد حول الذكاء الاصطناعي. إذا كنت تتطلع إلى بدء مشروع الذكاء الاصطناعي البصري الخاص بك، فراجع خيارات الترخيص الخاصة بنا. يمكنك أيضًا معرفة كيف يُحدث الذكاء الاصطناعي في الرعاية الصحية و الذكاء الاصطناعي البصري في البيع بالتجزئة تأثيرًا من خلال زيارة صفحات الحلول الخاصة بنا.