مسرد المصطلحات

المعالجة المسبقة للبيانات

إتقان المعالجة المسبقة للبيانات من أجل التعلّم الآلي. تعلم تقنيات مثل التنظيف والقياس والترميز لتعزيز دقة النموذج والأداء.

تُعد المعالجة المسبقة للبيانات خطوة حاسمة في خط أنابيب التعلّم الآلي (ML) التي تتضمن تنظيف البيانات الأولية وتحويلها وتنظيمها لجعلها مناسبة للتدريب وبناء النماذج. غالبًا ما تكون البيانات الأولية من العالم الحقيقي غير مكتملة وغير متسقة وقد تحتوي على أخطاء. تعمل المعالجة المسبقة على تحويل هذه البيانات الفوضوية إلى تنسيق نظيف وجيد التنظيم، وهو أمر ضروري للنموذج كي يتعلم بفعالية. تعتمد جودة تنبؤات النموذج اعتمادًا كبيرًا على جودة البيانات التي يتم تدريبه عليها، مما يجعل المعالجة المسبقة للبيانات ممارسة أساسية لتحقيق دقة عالية وأداء موثوق به في أنظمة الذكاء الاصطناعي.

المهام الرئيسية في المعالجة المسبقة للبيانات

تعد المعالجة المسبقة للبيانات مصطلحًا واسعًا يشمل مجموعة متنوعة من التقنيات لإعداد البيانات. وتعتمد الخطوات المحددة على مجموعة البيانات ومهمة تعلّم الآلة ولكن تتضمن المهام الشائعة ما يلي:

  • تنظيف البيانات: هي عملية تحديد وتصحيح أو إزالة الأخطاء والتناقضات والقيم المفقودة من مجموعة البيانات. قد يتضمن ذلك ملء البيانات المفقودة باستخدام الأساليب الإحصائية أو إزالة الإدخالات المكررة. البيانات النظيفة هي حجر الزاوية لأي نموذج موثوق.
  • تحويل البيانات: يتضمن ذلك تغيير مقياس البيانات أو توزيعها. الأسلوب الشائع هو التطبيعالذي يقيس الميزات العددية إلى نطاق قياسي (على سبيل المثال، من 0 إلى 1) لمنع الميزات ذات المقاييس الأكبر من السيطرة على عملية التعلم. يمكنك معرفة المزيد حول طرق القياس المختلفة من وثائق المعالجة المسبقة في scikit-learn.
  • هندسة الميزات: هذه هي العملية الإبداعية لإنشاء ميزات جديدة من الميزات الموجودة لتحسين أداء النموذج. قد يتضمن ذلك الجمع بين الميزات أو تفكيكها أو استخدام المعرفة بالمجال لاستخراج معلومات أكثر جدوى. المفهوم ذو الصلة هو استخراج الميزاتالذي يقلل تلقائيًا من أبعاد البيانات.
  • ترميز البيانات الفئوية: تتطلب العديد من خوارزميات تعلّم الآلة مدخلات رقمية. وغالبًا ما تتضمن المعالجة المسبقة تحويل البيانات الفئوية (مثل التسميات النصية) إلى تنسيق رقمي من خلال تقنيات مثل الترميز أحادي التشفير.
  • تغيير الحجم والتكبير: في مجال الرؤية الحاسوبية، تتضمن المعالجة المسبقة تغيير حجم الصور إلى بُعد موحد. ويمكن أن يتبع ذلك أيضًا زيادة البياناتالتي توسع مجموعة البيانات بشكل مصطنع عن طريق إنشاء نسخ معدلة من الصور.

تطبيقات الذكاء الاصطناعي/التعلم الآلي في العالم الحقيقي

تعد المعالجة المسبقة للبيانات مطلبًا عالميًا في جميع مجالات الذكاء الاصطناعي. ويعد تطبيقه أمرًا بالغ الأهمية للنجاح في كل من المهام البسيطة والمعقدة.

  1. تحليل الصور الطبية: قبل أن يمكن تدريب نموذج YOLO على اكتشاف الأورام في فحوصات التصوير بالرنين المغناطيسي من مجموعة بيانات مثل مجموعة بيانات أورام الدماغ، يجب معالجة الصور مسبقًا. يتضمن ذلك تطبيع قيم كثافة البكسل لمراعاة الاختلافات في معدات المسح الضوئي، وتغيير حجم جميع الصور إلى حجم إدخال متناسق يتطلبه العمود الفقري للنموذج، وتنظيف مجموعة البيانات لإزالة الملفات التالفة أو الأمثلة ذات التسميات الخاطئة. يضمن ذلك أن تتعلم الشبكة العصبية التلافيفية (CNN) السمات المرضية الحقيقية للنموذج بدلاً من الاختلافات في التصوير. يمكنك الاطلاع على المزيد حول هذا الأمر في مدونتنا حول استخدام YOLO للكشف عن الأورام.
  2. التنبؤ بالتجزئة المدعوم بالذكاء الاصطناعي: بالنسبة للنموذج الذي يتنبأ بطلب العملاء في مجال البيع بالتجزئة، غالبًا ما تحتوي بيانات المبيعات الأولية على سجلات معاملات مفقودة، وتسمية غير متسقة للمنتجات، وميزات بمقاييس مختلفة إلى حد كبير (على سبيل المثال، "سعر السلعة" مقابل "عدد الأصناف المباعة"). تنطوي المعالجة المسبقة هنا على استنتاج أرقام المبيعات المفقودة، وتوحيد أسماء المنتجات، وتوحيد السمات العددية بحيث يمكن لخوارزمية النمذجة التنبؤية أن تزن أهمية كل عامل بشكل فعال. تُلقي نظرة عامة على المعالجة المسبقة للأعمال التجارية الضوء على هذه الخطوات.

المعالجة المسبقة للبيانات مقابل المفاهيم ذات الصلة

من المفيد التفريق بين المعالجة المسبقة للبيانات ومصطلحات إدارة البيانات الأخرى ذات الصلة.

  • تنظيف البيانات: كما ذكرنا، تنظيف البيانات هو مجموعة فرعية من المعالجة المسبقة للبيانات. في حين أن المعالجة المسبقة هي العملية الكاملة لإعداد البيانات للنموذج، فإن التنظيف يركز تحديدًا على إصلاح الأخطاء ومعالجة القيم المفقودة وإزالة التناقضات داخل مجموعة البيانات الأولية.
  • زيادة البيانات: زيادة البيانات هي تقنية تُستخدم لزيادة حجم بيانات التدريب بشكل مصطنع. على الرغم من أنها جزء من إعداد البيانات للتدريب، إلا أنها تُطبّق عادةً بعد الانتهاء من خطوات المعالجة المسبقة الأولية مثل التنظيف وتغيير الحجم على مجموعة البيانات الأصلية. تهدف الزيادة إلى تحسين تعميم النموذج، بينما تهدف المعالجة المسبقة إلى جعل البيانات الأصلية قابلة للاستخدام.
  • تحليلات البيانات: تحليل البيانات هو مجال أوسع نطاقًا يتضمن فحص مجموعات البيانات لاستخلاص الاستنتاجات ودعم عملية صنع القرار. تعد المعالجة المسبقة للبيانات الخطوة الأولى الأساسية في سير عمل تحليلات البيانات، والتي تتضمن أيضًا تحليل البيانات الاستكشافية (EDA) والنمذجة وتصور البيانات.

يمكن أن تساعد منصات مثل Ultralytics HUB في إدارة مجموعات البيانات وتبسيط دورة حياة تعلّم الآلة، بدءاً من إعداد البيانات إلى نشر النموذج. يوفر الدليل الخاص بالمعالجة المسبقة للبيانات المشروحة المزيد من الأفكار العملية.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة