مسرد المصطلحات

انجراف البيانات

اكتشف أنواع وأسباب وحلول انجراف البيانات في التعلم الآلي. تعرّف على كيفية اكتشاف انجراف البيانات والتخفيف من حدته للحصول على نماذج ذكاء اصطناعي قوية.

يُعد انجراف البيانات تحديًا شائعًا في التعلم الآلي (ML) حيث تتغير الخصائص الإحصائية لبيانات المدخلات المستخدمة لتدريب نموذج ما بمرور الوقت مقارنةً بالبيانات التي يواجهها النموذج أثناء الإنتاج أو الاستدلال. يعني هذا التباين أن الأنماط التي تعلمها النموذج أثناء التدريب قد لا تمثل بيئة العالم الحقيقي بدقة، مما يؤدي إلى انخفاض في الأداء والدقة. يعد فهم وإدارة انجراف البيانات أمرًا ضروريًا للحفاظ على موثوقية أنظمة الذكاء الاصطناعي، لا سيما تلك التي تعمل في ظروف ديناميكية مثل المركبات ذاتية القيادة أو التنبؤ المالي.

أهمية انجراف البيانات

عندما يحدث انحراف في البيانات، تصبح النماذج التي تم تدريبها على البيانات التاريخية أقل فعالية في إجراء تنبؤات على البيانات الجديدة غير المرئية. يمكن أن يؤدي هذا التدهور في الأداء إلى اتخاذ قرارات خاطئة أو انخفاض قيمة الأعمال أو حدوث أعطال خطيرة في التطبيقات الحساسة. على سبيل المثال، قد يبدأ النموذج المدرّب على اكتشاف الأجسام في فقدان الأجسام إذا تغيرت ظروف الإضاءة أو زوايا الكاميرا بشكل كبير عن بيانات التدريب. تُعد المراقبة المستمرة للنموذج أمرًا بالغ الأهمية للكشف عن الانجراف في وقت مبكر وتنفيذ إجراءات تصحيحية، مثل إعادة تدريب النموذج أو التحديثات باستخدام منصات مثل Ultralytics HUB، للحفاظ على الأداء. يمكن أن يؤدي تجاهل انجراف البيانات إلى جعل حتى النماذج المتطورة مثل Ultralytics YOLO عفا عليها الزمن.

أسباب انجراف البيانات

يمكن أن تساهم عدة عوامل في انحراف البيانات، بما في ذلك:

التغييرات في العالم الحقيقي: يمكن للأحداث الخارجية أو الموسمية (على سبيل المثال، أنماط التسوق في العطلات) أو التحولات في سلوك المستخدم أن تغير توزيعات البيانات.
تغييرات مصدر البيانات: يمكن أن تؤدي التعديلات في طرق جمع البيانات أو معايرة المستشعرات أو خطوط أنابيب معالجة البيانات الأولية إلى حدوث انحراف. على سبيل المثال، تغيير في أجهزة الكاميرا لنظام الرؤية الحاسوبية.
تغييرات الميزات: قد تتغير أهمية ميزات المدخلات أو تعريفها بمرور الوقت.
مشكلات جودة البيانات: يمكن أن تتراكم مشاكل مثل القيم المفقودة أو القيم المتطرفة أو الأخطاء التي يتم إدخالها أثناء جمع البيانات أو معالجتها وتتسبب في حدوث انحراف. الحفاظ على جودة البيانات أمر بالغ الأهمية.
تغييرات نموذج المنبع: إذا كان النموذج يعتمد على مخرجات نموذج آخر، يمكن أن تتسبب التغييرات في نموذج المنبع في انحراف البيانات في نموذج المصب.