مسرد المصطلحات

تحيز مجموعة البيانات

تعرّف على كيفية تحديد وتخفيف تحيز مجموعة البيانات في الذكاء الاصطناعي لضمان وجود نماذج تعلّم آلي عادلة ودقيقة وموثوقة للتطبيقات الواقعية.

يحدث تحيز مجموعة البيانات عندما لا تمثل البيانات المستخدمة لتدريب النموذج بدقة بيئة العالم الحقيقي حيث سيتم نشر النموذج. ويُعد هذا التمثيل غير المتوازن أو التمثيل المنحرف مشكلة حرجة في التعلم الآلي (ML) لأن النماذج تتعلم الأنماط والعيوب الموجودة في بيانات التدريب الخاصة بها. إذا كانت البيانات متحيزة، فإن نظام الذكاء الاصطناعي الناتج سيرث هذا التحيز وغالباً ما يضخمه، مما يؤدي إلى نتائج غير دقيقة وغير موثوقة وغير عادلة. تُعد معالجة تحيز مجموعة البيانات حجر الزاوية في تطوير الذكاء الاصطناعي المسؤول ودعم أخلاقيات الذكاء الاصطناعي.

المصادر الشائعة لتحيز مجموعة البيانات

يمكن إدخال التحيز في مراحل مختلفة من خط أنابيب البيانات، من التجميع إلى المعالجة. تتضمن بعض الأنواع الشائعة ما يلي:

  • التحيز في الاختيار: يحدث هذا عندما لا يتم أخذ عينات البيانات بشكل عشوائي من السكان المستهدفين. على سبيل المثال، قد يؤدي جمع البيانات لنموذج تحليلات البيع بالتجزئة من الأحياء ذات الدخل المرتفع فقط إلى تحيز في الاختيار، مما يؤدي إلى نموذج لا يفهم سلوك مجموعات العملاء الأخرى.
  • تحيز التمثيل: يحدث هذا عندما تكون بعض المجموعات الفرعية ممثلة تمثيلاً ناقصاً أو زائداً في مجموعة البيانات. فمجموعة البيانات القياسية لرصد حركة المرور التي تحتوي على صور نهارية في الغالب ستؤدي إلى ضعف أداء النموذج عند اكتشاف المركبات ليلاً.
  • تحيز القياس: ينشأ ذلك من الأخطاء المنهجية أثناء جمع البيانات أو من أدوات القياس نفسها. على سبيل المثال، يؤدي استخدام كاميرات عالية الدقة في مجموعة بيانات الرؤية الحاسوبية إلى تحيز القياس في مجموعة بيانات الرؤية الحاسوبية.
  • التحيز التوضيحي: ينبع هذا الأمر من الأحكام الذاتية للمشرحين البشريين أثناء عملية وضع العلامات على البيانات. يمكن أن تؤثر المفاهيم المسبقة على كيفية تطبيق التسميات، خاصةً في المهام التي تنطوي على تفسير ذاتي، مما قد يؤثر على تعلم النموذج.

أمثلة من العالم الحقيقي

  1. أنظمة التعرف على الوجه: اشتهرت أنظمة التعرف على الوجه التجارية المبكرة بأنها أقل دقة بالنسبة للنساء والأشخاص الملونين. وقد كشفت الأبحاث، مثل مشروع Gender Shades، أن هذا يرجع إلى حد كبير إلى أن مجموعات بيانات التدريب كانت تتألف بشكل كبير من صور الرجال البيض. وقد فشلت النماذج التي تم تدريبها على هذه البيانات المنحرفة في التعميم على مختلف الفئات السكانية.
  2. التشخيص الطبي: يمكن تدريب نموذج الذكاء الاصطناعي المصمم لتحليل الصور الطبية، مثل اكتشاف الأورام في الأشعة السينية، على بيانات من مستشفى واحد. يمكن لهذا النموذج أن يتعلم ميزات خاصة بأجهزة التصوير في ذلك المستشفى. عند نشره في مستشفى آخر بأجهزة مختلفة، قد ينخفض أداءه بشكل كبير بسبب انحراف البيانات. وهذا يسلط الضوء على الحاجة إلى مصادر بيانات متنوعة في الذكاء الاصطناعي في مجال الرعاية الصحية.

تحيز مجموعة البيانات مقابل التحيز الخوارزمي

من المهم التمييز بين تحيز مجموعة البيانات وتحيز الخوارزمية.

  • ينشأ تحيز مجموعة البيانات من البيانات نفسها. فالبيانات معيبة حتى قبل أن يراها النموذج، مما يجعلها مشكلة أساسية.
  • يمكن أن ينشأ التحيز الخوارزمي من بنية النموذج أو عملية التحسين التي قد تفضّل بشكل منهجي نتائج معينة على نتائج أخرى، حتى مع وجود بيانات متوازنة تمامًا.

ومع ذلك، فإن الاثنين مرتبطان بعمق. يعد تحيز مجموعة البيانات أحد أكثر أسباب التحيز الخوارزمي شيوعًا. من شبه المؤكد أن النموذج الذي يتم تدريبه على بيانات متحيزة سيقدم تنبؤات متحيزة، مما يؤدي إلى إنشاء خوارزمية متحيزة. لذلك، يجب أن يبدأ ضمان العدالة في الذكاء الاصطناعي بمعالجة التحيز في البيانات.

استراتيجيات التخفيف من الآثار

يُعد التخفيف من تحيز مجموعة البيانات عملية مستمرة تتطلب تخطيطًا وتنفيذًا دقيقًا طوال دورة حياة عمليات التعلم الآلي (MLOps).

  • جمع البيانات بشكل مدروس: السعي للحصول على مصادر بيانات متنوعة وتمثيلية تعكس العالم الحقيقي. من الضروري اتباع دليل منظم لجمع البيانات والتعليقات التوضيحية. توثيق مجموعات البيانات باستخدام أطر عمل مثل أوراق البيانات لمجموعات البيانات يعزز الشفافية.
  • زيادة البيانات وتوليفها: استخدم تقنيات مثل أخذ عينات زائدة من المجموعات ناقصة التمثيل، أو تطبيق زيادة البيانات المستهدفة، أو توليد بيانات تركيبية لموازنة مجموعة البيانات. تدعم نماذج Ultralytics في الأصل مجموعة متنوعة من أساليب التعزيز القوية.
  • أدوات تدقيق التحيّز: استخدم أدوات مثل أداة What-If من Google والمكتبات مفتوحة المصدر مثل Fairlearn لفحص مجموعات البيانات والنماذج بحثًا عن التحيزات المحتملة.
  • تقييم دقيق للنموذج: بالإضافة إلى مقاييس الدقة الإجمالية، قم بتقييم أداء النموذج عبر مجموعات فرعية ديموغرافية أو بيئية مختلفة. من أفضل الممارسات توثيق النتائج باستخدام أساليب مثل بطاقات النموذج للحفاظ على الشفافية.
  • الاستفادة من المنصات الحديثة: تقدم منصات مثل Ultralytics HUB أدوات متكاملة لإدارة مجموعة البيانات والتصور ونماذج التدريب مثل Ultralytics YOLO11. وهذا يساعد المطورين على بناء أنظمة أكثر إنصافًا من خلال تبسيط عملية إنشاء النماذج وتقييمها على بيانات متنوعة.

من خلال معالجة التحيز في مجموعة البيانات بشكل استباقي، يمكن للمطورين بناء أنظمة ذكاء اصطناعي أكثر قوة وموثوقية وأخلاقية، وهو موضوع كثيرًا ما يُناقش في المؤتمرات الرائدة مثل مؤتمر ACM حول العدالة والمساءلة والشفافية (FAccT).

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة