المعالجة المسبقة للبيانات
إتقان المعالجة المسبقة للبيانات لتعلم الآلة. تعلم تقنيات مثل التنظيف والتحجيم والترميز لتعزيز دقة النموذج وأدائه.
تعد المعالجة المسبقة للبيانات خطوة حاسمة في مسار التعلم الآلي (ML) الذي يتضمن تنظيف البيانات الأولية وتحويلها وتنظيمها لجعلها مناسبة لتدريب النماذج وبنائها. غالبًا ما تكون البيانات الأولية من العالم الحقيقي غير كاملة وغير متناسقة وقد تحتوي على أخطاء. تحول المعالجة المسبقة هذه البيانات الفوضوية إلى تنسيق نظيف ومنظم جيدًا، وهو أمر ضروري لكي يتعلم النموذج بفعالية. تعتمد جودة تنبؤات النموذج بشكل كبير على جودة البيانات التي يتم تدريبه عليها، مما يجعل المعالجة المسبقة للبيانات ممارسة أساسية لتحقيق دقة عالية وأداء موثوق في أنظمة الذكاء الاصطناعي.
المهام الرئيسية في معالجة البيانات الأولية
المعالجة المسبقة للبيانات هو مصطلح واسع يشمل مجموعة متنوعة من التقنيات لإعداد البيانات. تعتمد الخطوات المحددة على مجموعة البيانات ومهمة التعلم الآلي، ولكن المهام الشائعة تشمل:
- تنظيف البيانات: هذه هي عملية تحديد وتصحيح أو إزالة الأخطاء والتناقضات والقيم المفقودة من مجموعة البيانات. قد يتضمن ذلك ملء البيانات المفقودة باستخدام الأساليب الإحصائية أو إزالة الإدخالات المكررة. البيانات النظيفة هي حجر الزاوية لأي نموذج موثوق به.
- تحويل البيانات (Data Transformation): يتضمن ذلك تغيير مقياس البيانات أو توزيعها. إحدى التقنيات الشائعة هي التطبيع (normalization)، والتي تعمل على توسيع نطاق الميزات الرقمية إلى نطاق قياسي (مثل 0 إلى 1) لمنع الميزات ذات المقاييس الأكبر من الهيمنة على عملية التعلم. يمكنك معرفة المزيد حول طرق القياس المختلفة من وثائق المعالجة المسبقة لـ scikit-learn.
- Feature Engineering: هذه هي العملية الإبداعية لإنشاء ميزات جديدة من الميزات الموجودة لتحسين أداء النموذج. يمكن أن يشمل ذلك الجمع بين الميزات أو تحليلها أو استخدام معرفة المجال لاستخراج معلومات أكثر فائدة. المفهوم ذو الصلة هو استخراج الميزات، والذي يقلل تلقائيًا من أبعاد البيانات.
- ترميز البيانات الفئوية: تتطلب العديد من خوارزميات تعلم الآلة إدخالًا رقميًا. غالبًا ما تتضمن المعالجة المسبقة تحويل البيانات الفئوية (مثل تسميات النصوص) إلى تنسيق رقمي من خلال تقنيات مثل الترميز الساخن الأحادي.
- تغيير الحجم والزيادة: في رؤية الكمبيوتر (CV)، تتضمن المعالجة المسبقة تغيير حجم الصور إلى بُعد موحد. يمكن أيضًا أن يتبع ذلك زيادة البيانات، مما يوسع مجموعة البيانات بشكل مصطنع عن طريق إنشاء نسخ معدلة من الصور.
تطبيقات الذكاء الاصطناعي/تعلم الآلة الواقعية
تعد المعالجة المسبقة للبيانات مطلبًا عالميًا في جميع مجالات الذكاء الاصطناعي. يعد تطبيقه أمرًا بالغ الأهمية لتحقيق النجاح في كل من المهام البسيطة والمعقدة.
- تحليل الصور الطبية: قبل أن يتم تدريب نموذج YOLO لاكتشاف الأورام في فحوصات التصوير بالرنين المغناطيسي من مجموعة بيانات مثل مجموعة بيانات أورام الدماغ، يجب معالجة الصور مسبقًا. يتضمن ذلك تطبيع قيم كثافة البكسل لمراعاة الاختلافات في معدات المسح، وتغيير حجم جميع الصور إلى حجم إدخال ثابت مطلوب بواسطة العمود الفقري للنموذج، وتنظيف مجموعة البيانات لإزالة الملفات التالفة أو الأمثلة التي تم تصنيفها بشكل خاطئ. يضمن هذا أن الشبكة العصبونية التفافية (CNN) تتعلم الميزات المرضية الحقيقية للنموذج بدلاً من الاختلافات في التصوير. يمكنك رؤية المزيد حول هذا في مدونتنا حول استخدام YOLO لاكتشاف الأورام.
- التنبؤ بالبيع بالتجزئة المدعوم بالذكاء الاصطناعي: بالنسبة لنموذج يتنبأ بطلب العملاء في البيع بالتجزئة، غالبًا ما تحتوي بيانات المبيعات الأولية على سجلات معاملات مفقودة، وتسمية منتجات غير متناسقة، وميزات على نطاقات مختلفة اختلافًا كبيرًا (مثل 'سعر السلعة' مقابل 'عدد السلع المباعة'). تتضمن المعالجة المسبقة هنا تعويض أرقام المبيعات المفقودة، وتوحيد أسماء المنتجات، وتطبيع الميزات الرقمية بحيث يمكن لخوارزمية النمذجة التنبؤية أن تزن بشكل فعال أهمية كل عامل. يقدم نظرة عامة على المعالجة المسبقة للأعمال هذه الخطوات.
المعالجة المسبقة للبيانات مقابل المفاهيم ذات الصلة
من المفيد التمييز بين المعالجة المسبقة للبيانات ومصطلحات إدارة البيانات الأخرى ذات الصلة.
- تنظيف البيانات: كما ذكرنا، فإن تنظيف البيانات هو مجموعة فرعية من المعالجة المسبقة للبيانات. في حين أن المعالجة المسبقة هي العملية الكاملة لإعداد البيانات للنموذج، فإن التنظيف يركز تحديدًا على إصلاح الأخطاء والتعامل مع القيم المفقودة وإزالة التناقضات داخل مجموعة البيانات الأولية.
- زيادة البيانات: زيادة البيانات هي تقنية تستخدم لزيادة حجم بيانات التدريب بشكل مصطنع. على الرغم من أنها جزء من إعداد البيانات للتدريب، إلا أنها تُطبق عادةً بعد اكتمال خطوات المعالجة المسبقة الأولية مثل التنظيف وتغيير الحجم بالفعل على مجموعة البيانات الأصلية. الهدف من الزيادة هو تحسين تعميم النموذج، في حين أن المعالجة المسبقة تهدف إلى جعل البيانات الأصلية قابلة للاستخدام.
- تحليل البيانات: تحليل البيانات هو مجال أوسع بكثير يتضمن فحص مجموعات البيانات لاستخلاص النتائج ودعم اتخاذ القرارات. المعالجة المسبقة للبيانات هي الخطوة الأولى التأسيسية داخل سير عمل تحليل البيانات، والذي يتضمن أيضًا تحليل البيانات الاستكشافي (EDA) والنمذجة و تصور البيانات.
يمكن أن تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات وتبسيط دورة حياة ML، من إعداد البيانات إلى نشر النموذج. يقدم دليل المعالجة المسبقة للبيانات المشروحة مزيدًا من الرؤى العملية.