Dataset Bias
استكشف أسباب تحيز مجموعات البيانات في الذكاء الاصطناعي وتعلم كيفية تخفيف الانحراف. اكتشف كيفية استخدام منصة Ultralytics و Ultralytics YOLO26 لتحسين العدالة.
يحدث تحيز مجموعة البيانات عندما تحتوي المعلومات المستخدمة لتدريب نماذج تعلم الآلة (ML) على أخطاء منهجية أو توزيعات منحازة، مما يؤدي إلى دفع نظام الذكاء الاصطناعي الناتج إلى تفضيل نتائج معينة على غيرها. ولأن النماذج تعمل كمحركات للتعرف على الأنماط، فهي تعتمد كلياً على مدخلاتها؛ فإذا كانت بيانات التدريب لا تعكس بدقة تنوع بيئة العالم الحقيقي، فسيرث النموذج هذه النقاط العمياء. غالباً ما تؤدي هذه الظاهرة إلى ضعف في التعميم، حيث قد يحقق الذكاء الاصطناعي درجات عالية أثناء الاختبار ولكنه يفشل بشكل كبير عند نشره لـ الاستدلال في الوقت الفعلي في سيناريوهات متنوعة أو غير متوقعة.
Link to this sectionالمصادر الشائعة لانحياز البيانات#
يمكن أن يتسلل التحيز إلى مجموعة البيانات في مراحل متعددة من دورة حياة التطوير، وغالباً ما ينبع من القرارات البشرية أثناء الجمع أو التصنيف.
- تحيز الاختيار: ينشأ هذا عندما لا تمثل البيانات التي تم جمعها المجتمع المستهدف بشكل عشوائي. على سبيل المثال، إنشاء مجموعة بيانات للتعرف على الوجه باستخدام صور المشاهير بشكل أساسي قد يؤدي إلى انحياز النموذج نحو المكياج الكثيف والإضاءة الاحترافية، مما يجعله يفشل في التعامل مع صور كاميرات الويب العادية.
- أخطاء التصنيف: يمكن أن تؤدي الذاتية أثناء تصنيف البيانات إلى إدخال تحيز بشري. إذا قام المصنفون بتصنيف كائنات غامضة بشكل خاطئ باستمرار بسبب نقص الإرشادات الواضحة، سيتعامل النموذج مع هذه الأخطاء كحقائق أساسية.
- تحيز التمثيل: حتى لو تم اختيارها عشوائياً، قد تطغى فئة الأغلبية إحصائياً على المجموعات الأقلية. في اكتشاف الأجسام، مجموعة بيانات تحتوي على 10,000 صورة سيارات ولكن 100 صورة دراجات فقط ستؤدي إلى نموذج متحيز نحو اكتشاف السيارات.
Link to this sectionالتطبيقات الواقعية والعواقب#
إن تأثير تحيز مجموعة البيانات كبير عبر مختلف الصناعات، خاصة حيث تتخذ الأنظمة المؤتمتة قرارات عالية المخاطر أو تتفاعل مع العالم المادي.
في صناعة السيارات، يعتمد الذكاء الاصطناعي في السيارات على الكاميرات لتحديد المشاة والعقبات. إذا تم تدريب سيارة ذاتية القيادة بشكل أساسي على بيانات تم جمعها في مناخات مشمسة وجافة، فقد تُظهر تدهوراً في الأداء عند العمل في الثلوج أو الأمطار الغزيرة. هذا مثال كلاسيكي على فشل توزيع التدريب في مطابقة توزيع التشغيل، مما يؤدي إلى مخاطر تتعلق بالسلامة.
وبالمثل، في تحليل الصور الطبية، غالباً ما يتم تدريب نماذج التشخيص على بيانات المرضى التاريخية. إذا تم تدريب نموذج مصمم للكشف عن الأمراض الجلدية على مجموعة بيانات تهيمن عليها درجات البشرة الفاتحة، فقد يُظهر دقة أقل بكثير عند تشخيص المرضى ذوي البشرة الداكنة. يتطلب معالجة هذا الأمر جهداً منسقاً لتنظيم مجموعات بيانات متنوعة تضمن العدالة في الذكاء الاصطناعي عبر جميع المجموعات الديموغرافية.
Link to this sectionاستراتيجيات التخفيف#
يمكن للمطورين تقليل تحيز مجموعة البيانات من خلال توظيف عمليات تدقيق صارمة واستراتيجيات تدريب متقدمة. تساعد تقنيات مثل زيادة البيانات في موازنة مجموعات البيانات عن طريق إنشاء تباينات مصطنعة للأمثلة غير الممثلة بشكل كافٍ (على سبيل المثال، القلب، التدوير، أو تعديل السطوع). علاوة على ذلك، يمكن أن يسد إنشاء بيانات اصطناعية الفجوات حيث تكون بيانات العالم الحقيقي نادرة أو يصعب جمعها.
إدارة هذه المجموعات بفعالية أمر بالغ الأهمية. تتيح منصة Ultralytics للفرق تصور توزيعات الفئات وتحديد الاختلالات قبل بدء التدريب. بالإضافة إلى ذلك، يساعد الالتزام بالمبادئ التوجيهية مثل إطار إدارة مخاطر الذكاء الاصطناعي NIST المؤسسات على هيكلة نهجها لتحديد هذه المخاطر والتخفيف منها بشكل منهجي.
Link to this sectionتحيز مجموعة البيانات مقابل المفاهيم ذات الصلة#
من المفيد تمييز تحيز مجموعة البيانات عن المصطلحات المشابهة لفهم مصدر الخطأ:
- مقابل التحيز الخوارزمي: تحيز مجموعة البيانات يتمحور حول البيانات؛ فهو يعني أن "المكونات" معيبة. التحيز الخوارزمي يتمحور حول النموذج؛ فهو ينشأ من تصميم الخوارزمية نفسها أو خوارزمية التحسين، والتي قد تعطي الأولوية لفئات الأغلبية لتعظيم المقاييس الإجمالية على حساب المجموعات الأقلية.
- مقابل انحراف النموذج: تحيز مجموعة البيانات هو مشكلة ثابتة موجودة وقت التدريب. يحدث انحراف النموذج (أو انحراف البيانات) عندما تتغير بيانات العالم الحقيقي بمرور الوقت بعد نشر النموذج، مما يتطلب مراقبة مستمرة للنموذج.
Link to this sectionمثال برمجي: زيادة البيانات لتقليل التحيز#
يوضح المثال التالي كيفية تطبيق زيادة البيانات أثناء التدريب باستخدام YOLO26. من خلال زيادة التباينات الهندسية، يتعلم النموذج التعميم بشكل أفضل، مما قد يقلل من التحيز تجاه اتجاهات أو مواقع معينة للأجسام الموجودة في مجموعة التدريب.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)





