استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

انحراف البيانات

اكتشف أنواع وأسباب وحلول انحراف البيانات في التعلم الآلي. تعلم كيفية اكتشاف وتخفيف انحراف البيانات لنماذج الذكاء الاصطناعي القوية.

يعد انحراف البيانات تحديًا شائعًا في تعلم الآلة (ML) يحدث عندما تتغير الخصائص الإحصائية للبيانات التي يواجهها النموذج في مرحلة التشغيل بمرور الوقت مقارنةً ببيانات التدريب التي تم إنشاؤه عليها. يعني هذا التحول أن النموذج يعمل على بيانات لم يتم إعداده لها، مما قد يؤدي إلى تدهور صامت ولكنه كبير في أدائه التنبئي. تعد إدارة انحراف البيانات بشكل فعال مكونًا مهمًا في دورة حياة MLOps، مما يضمن بقاء أنظمة الذكاء الاصطناعي (AI) موثوقة بعد نشر النموذج. بدون مراقبة النموذج الاستباقية، يمكن أن تمر هذه المشكلة دون أن يتم اكتشافها، مما يؤدي إلى اتخاذ قرارات سيئة ونتائج أعمال سلبية.

انحراف البيانات مقابل انحراف المفهوم

من المهم التمييز بين انحراف البيانات (data drift) وقضية ذات صلة، وهي انحراف المفهوم (concept drift). في حين أن كلاهما يمكن أن يقلل من أداء النموذج، إلا أن أسبابهما مختلفة.

  • انحراف البيانات: يُعرف أيضًا باسم انحراف الميزات أو المتغيرات المصاحبة، ويحدث هذا عندما يتغير توزيع بيانات الإدخال، ولكن العلاقة الأساسية بين المدخلات والمخرجات تظل ثابتة. على سبيل المثال، قد يكون أداء نموذج الرؤية الحاسوبية الذي تم تدريبه على صور من نوع واحد من الكاميرات ضعيفًا على الصور من كاميرا جديدة بخصائص مستشعر مختلفة. يظل تعريف الكائنات التي يتم اكتشافها كما هو، ولكن خصائص بيانات الإدخال قد تغيرت.
  • انحراف المفهوم: يحدث هذا عندما تتغير الخصائص الإحصائية للمتغير الهدف بمرور الوقت. تتغير العلاقة الأساسية بين ميزات الإدخال والمتغير الناتج. في نظام الكشف عن الاحتيال المالي، على سبيل المثال، تتطور التكتيكات التي يستخدمها المحتالون، مما يغير ما يشكل معاملة "احتيالية". يمكن العثور على استكشاف تفصيلي لانحراف المفهوم في الأدبيات الأكاديمية.

أمثلة واقعية

  1. إدارة مخزون البيع بالتجزئة: يستخدم نظام البيع بالتجزئة المدفوع بالذكاء الاصطناعي خلاصات الكاميرا ونموذج اكتشاف الكائنات مثل Ultralytics YOLO11 لمراقبة مخزون الرفوف. يتم تدريب النموذج على مجموعة معينة من عبوات المنتجات. إذا قام مورد بتغيير تصميم العبوة أو قام المتجر بترقية الإضاءة الخاصة به، فإن هذا يقدم انحرافًا في البيانات. تختلف البيانات المرئية الجديدة عن مجموعة بيانات التدريب الأصلية، مما قد يتسبب في فشل النموذج في التعرف على المنتجات، مما يؤدي إلى عدد غير دقيق للمخزون.
  2. المركبات ذاتية القيادة: تستخدم السيارات ذاتية القيادة نماذج مدربة على كميات هائلة من بيانات المستشعرات من مواقع جغرافية وظروف جوية محددة. إذا تم نشر سيارة في مدينة جديدة أو واجهت حدثًا جويًا نادرًا مثل الثلج لأول مرة، فإن نظام الإدراك الخاص بها يواجه انحرافًا في البيانات. يختلف توزيع المدخلات (مثل علامات الطريق وإشارات المرور وسلوك المشاة) اختلافًا كبيرًا عن تجربة التدريب الخاصة بها، مما قد يعرض السلامة للخطر ويتطلب اهتمامًا فوريًا. تستثمر Waymo وشركات القيادة الذاتية الأخرى بكثافة في اكتشاف ذلك والتخفيف من آثاره.

الكشف عن انحراف البيانات وتخفيفه

يعد اكتشاف ومعالجة انجراف البيانات عملية مستمرة تتضمن مجموعة من استراتيجيات المراقبة والصيانة.

طرق الكشف

  • مراقبة الأداء: يمكن أن يشير تتبع مقاييس النموذج الرئيسية مثل الدقة و الضبط و F1-score بمرور الوقت إلى تدهور الأداء المحتمل الناجم عن الانحراف. يمكن لأدوات مثل TensorBoard المساعدة في تصور هذه المقاييس.
  • المراقبة الإحصائية: تطبيق اختبارات إحصائية لمقارنة توزيع البيانات الواردة مع بيانات التدريب. تتضمن الطرق الشائعة اختبار كولموجوروف-سميرنوف، ومؤشر استقرار التوزيع السكاني (PSI)، أو اختبارات مربع كاي.
  • أدوات المراقبة: استخدام منصات المراقبة المتخصصة المصممة لمراقبة نماذج تعلم الآلة في مرحلة الإنتاج. تتضمن الخيارات مفتوحة المصدر Prometheus و Grafana، بينما توفر أدوات تعلم الآلة المخصصة مثل Evidently AI و NannyML ميزات أكثر تحديدًا للكشف عن الانحراف. يقدم موفرو الخدمات السحابية أيضًا حلولًا مثل AWS SageMaker Model Monitor و Vertex AI Model Monitoring من Google Cloud.

استراتيجيات التخفيف

  • إعادة التدريب: الإستراتيجية الأكثر وضوحًا هي إعادة تدريب النموذج بانتظام على بيانات حديثة وجديدة تعكس بيئة الإنتاج الحالية. تسهل منصات مثل Ultralytics HUB إعادة التدريب وسير عمل النشر بسهولة.
  • التعلم عبر الإنترنت: يتضمن ذلك تحديث النموذج بشكل تدريجي مع وصول بيانات جديدة. يجب استخدامه بحذر، لأنه يمكن أن يكون حساسًا للبيانات المشوشة وقد يتسبب في تذبذب أداء النموذج بشكل غير متوقع.
  • زيادة البيانات: يمكن أن يؤدي الاستخدام الاستباقي لتقنيات زيادة البيانات خلال مرحلة التدريب الأولية إلى جعل النموذج أكثر قوة لأنواع معينة من الاختلافات، مثل التغيرات في الإضاءة أو المقياس أو الاتجاه.
  • تكييف المجال: استخدام تقنيات متقدمة تحاول صراحةً تكييف نموذج تم تدريبه على توزيع بيانات مصدر مع توزيع بيانات هدف مختلف ولكنه ذو صلة. هذا مجال نشط في أبحاث ML.

تعد الإدارة الفعالة لانحراف البيانات أمرًا حيويًا لضمان بقاء أنظمة الذكاء الاصطناعي المبنية باستخدام أطر عمل مثل PyTorch أو TensorFlow دقيقة وتقديم قيمة طوال فترة تشغيلها. يمكنك معرفة المزيد حول أفضل الممارسات لصيانة النماذج في مدونتنا.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة