تعرف على كيفية تحديد وتخفيف تحيز مجموعة البيانات في الذكاء الاصطناعي لضمان نماذج تعلم آلي عادلة ودقيقة وموثوقة للتطبيقات الواقعية.
يشير تحيز مجموعة البيانات إلى خطأ منهجي أو عدم توازن في المعلومات المستخدمة في تدريب نماذج التعلم الآلي (ML) ، مما يؤدي إلى أنظمة لا تعكس بدقة بيئة العالم الحقيقي التي تهدف إلى خدمتها. في سياق الرؤية الحاسوبية (CV)، تتعلم النماذج التعرف على الأنماط الأنماط بناءً على بيانات التدريب الخاصة بها بالكامل. إذا كان كان هذا الأساس منحرفًا - على سبيل المثال، من خلال الإفراط في تمثيل حالة ديموغرافية أو بيئية معينة - فإن فإن النموذج "سيرث" هذه النقاط العمياء. هذه الظاهرة هي السبب الرئيسي لضعف التعميم، حيث يكون أداء نظام الذكاء الاصطناعي يؤدي نظام الذكاء الاصطناعي أداءً جيداً في الاختبار لكنه يفشل عند استخدامه في الاستدلال في الوقت الحقيقي في سيناريوهات متنوعة.
إن فهم مصدر التحيز هو الخطوة الأولى نحو الوقاية. وغالبًا ما يتسلل التحيز خلال المراحل الأولى من المراحل الأولى من جمع البيانات والتعليقات التوضيحية والشرح:
يمكن أن تتراوح عواقب التحيز في مجموعة البيانات من مضايقات بسيطة إلى إخفاقات السلامة الحرجة في في الصناعات عالية المخاطر.
من المفيد التمييز بين التحيّز في مجموعة البيانات والتحيّز الخوارزمي. التحيز الخوارزمي.
يساهم كلاهما في القضية الأوسع نطاقًا المتعلقة بالتحيز في الذكاء الاصطناعي، و ومعالجتها أمر أساسي لأخلاقيات الذكاء الاصط ناعي و والإنصاف في الذكاء الاصطناعي.
يمكن للمطورين استخدام عدة تقنيات لتحديد التحيز والحد منه. يمكن أن يساعد استخدام البيانات الاصطناعية يمكن أن يساعد في سد الثغرات حيثما تكون البيانات تكون البيانات الواقعية نادرة. بالإضافة إلى ذلك، فإن التقييم الدقيق تقييم النموذج الدقيق الذي يقسم الأداء حسب المجموعة الفرعية (بدلاً من مجرد متوسط عالمي) يمكن أن يكشف عن أوجه القصور الخفية.
طريقة أخرى قوية هي زيادة البيانات. من خلال تعديل صور التدريب بشكل مصطنع - تغيير الألوان أو الدوران أو الإضاءة - يمكن للمطورين إجبار النموذج على تعلم ميزات أكثر قوة بدلاً من الاعتماد على التفاصيل العرضية المتحيزة.
يوضح المثال التالي كيفية تطبيق التعزيز أثناء التدريب مع Ultralytics YOLO11 للمساعدة في التخفيف من التحيز المرتبط اتجاه الكائن أو ظروف الإضاءة:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
من خلال إدارة جودة مجموعة البيانات بشكل استباقي واستخدام أدوات مثل المعلمات الفائقة للزيادة، يمكن للمهندسين بناء ذكاء اصطناعي مسؤول مسؤولة تعمل بشكل موثوق للجميع. لمزيد من القراءة حول مقاييس الإنصاف، توفر موارد مثل IBM's AI Fairness 360 توفر مجموعات أدوات ممتازة مفتوحة المصدر مفتوحة المصدر.