Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

المعالجة المسبقة للبيانات

إتقان المعالجة المسبقة للبيانات لتعلم الآلة. تعلم تقنيات مثل التنظيف والتحجيم والترميز لتعزيز دقة النموذج وأدائه.

المعالجة المسبقة للبيانات هي المرحلة الأولية الحاسمة في خط أنابيب التعلم الآلي حيث يتم تحويل البيانات الأولية إلى نظيفة ومفهومة للخوارزميات. غالبًا ما تكون بيانات العالم الحقيقي غير مكتملة وغير متناسقة ومليئة بالأخطاء أو القيم المتطرفة. إذا تم تدريب نموذج ما على مثل هذه المدخلات المعيبة، فإن النمذجة التنبؤية الناتجة النمذجة التنبؤية الناتجة نتائج غير دقيقة، وهي ظاهرة غالبًا ما يشار إليها باسم "القمامة في، القمامة خارج". من خلال معالجة هذه المشكلات بشكل منهجي، تضمن المعالجة المسبقة أن تكون أن تكون بيانات التدريب عالية الجودة، وهو أمر ضروري لتحقيق الدقة والاستقرار الأمثل للنموذج.

التقنيات الأساسية في المعالجة المسبقة

تختلف الخطوات المحددة المتضمنة في المعالجة المسبقة بناءً على نوع البيانات - سواء كانت نصوصًا أو صورًا أو بيانات مجدولة - ولكنها تتضمن بشكل عام تتضمن عمومًا عدة مهام تأسيسية.

  • تنظيف البيانات: يتضمن ذلك التعامل مع القيم المفقودة وتصحيح البيانات المشوشة وحل التناقضات. قد تتضمن الأساليب المتبعة في هذا المجال إسناد الإدخالات المفقودة بوسائل إحصائية أو إزالة السجلات التالفة بالكامل باستخدام أدوات مثل Pandas.
  • التطبيع والتحجيم: غالبًا ما يكون أداء الخوارزميات ضعيفًا عندما يكون أداء الخوارزميات ضعيفًا عندما تكون الميزات ذات مقاييس مختلفة إلى حد كبير (على سبيل المثال، العمر مقابل الدخل). التطبيع يضبط الأعمدة الرقمية على مقياس مشترك، مثل 0 إلى 1، مما يمنع القيم الأكبر من السيطرة على عملية على عملية نزول التدرج. يمكنك قراءة المزيد حول استراتيجيات القياس في وثائق Scikit-learn.
  • الترميز: تتطلب نماذج التعلم الآلي عادةً مدخلات رقمية. البيانات الفئوية (مثل "أحمر"، "أخضر"، "أزرق") يجب تحويلها إلى أرقام باستخدام طرق مثل التشفير الأحادي أو ترميز التسمية أو ترميز التسمية.
  • تقليل الأبعاد: تقنيات مثل تحليل المكونات الرئيسية (PCA) تقليل عدد متغيرات الإدخال، والاحتفاظ فقط بالمعلومات الأكثر أهمية لمنع من الإفراط في التركيب وتسريع التدريب.
  • تغيير حجم الصورة: في الرؤية الحاسوبية (CV)، يجب في كثير من الأحيان تغيير حجم الصور إلى بُعد ثابت (على سبيل المثال، 640 × 640 بكسل) لتتناسب مع طبقة الإدخال في الشبكة العصبية التلافيفية (CNN).

تطبيقات واقعية

إن المعالجة المسبقة للبيانات منتشرة في كل مكان في جميع الصناعات، وهي بمثابة العمود الفقري لأنظمة الذكاء الاصطناعي الموثوقة.

  1. تحليل الصور الطبية: عند الكشف عن الحالات الشاذة في فحوصات التصوير بالرنين المغناطيسي أو التصوير المقطعي المحوسب، فإن المعالجة المسبقة أمر حيوي. تختلف الأشعة الأولية من حيث التباين والدقة اعتماداً على الجهاز المستخدم. تعمل المعالجة المسبقة على تطبيع كثافة البكسل وتغيير حجم الصور لضمان تركيز يركز عامل الذكاء الاصطناعي على السمات المرضية بدلاً من بدلاً من التحف الفنية. على سبيل المثال، انظر كيف يستخدم الباحثون باستخدام YOLO11 للكشف عن الأورام لتحسين دقة التشخيص.
  2. كشف الاحتيال المالي: في القطاع المصرفي، غالباً ما تكون سجلات المعاملات في القطاع المصرفي فوضوية وغير متوازنة. تتضمن المعالجة المسبقة تنظيف أخطاء الطابع الزمني وتطبيع مبالغ المعاملات. والأهم من ذلك أنها تتضمن أيضًا موازنة مجموعة البيانات - نظرًا لأن الاحتيال نادر الحدوث - باستخدام تقنيات أخذ العينات لضمان أن أن نموذج الكشف عن الشذوذ يحدد بفعالية النشاط المشبوه بشكل فعال. تقدم IBM رؤى حول كيفية إعداد البيانات يدعم هذه التحليلات المهمة للأعمال.

المعالجة المسبقة باستخدام Ultralytics YOLO

غالبًا ما تقوم الأُطر الحديثة بأتمتة أجزاء كبيرة من خط أنابيب المعالجة المسبقة. عند استخدام YOLO11، يتم التعامل مع مهام مثل تغيير حجم الصورة وقياس قيم البكسل وتنسيق التسميات داخليًا أثناء عملية التدريب. يسمح هذا للمطورين بالتركيز على المهام ذات المستوى الأعلى مثل تقييم النموذج ونشره.

يوضح المثال التالي كيف يتعامل YOLO11 تلقائيًا مع تغيير حجم الصورة عبر imgsz الحجة أثناء التدريب:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

التفريق بين المفاهيم ذات الصلة

من المفيد التمييز بين المعالجة المسبقة للبيانات والمصطلحات المماثلة في سير عمل التعلم الآلي:

  • مقابل تعزيز البيانات: في حين أن تنسيقات المعالجة المسبقة للبيانات لتكون قابلة للاستخدام (مثل تغيير الحجم)، فإن الزيادة تتضمن إنشاء تنويعات اصطناعية جديدة للبيانات الموجودة (مثل التدوير والتقليب) لزيادة تنوع مجموعة البيانات و والمتانة. يمكنك معرفة المزيد في دليلنا لزيادة البيانات.
  • مقابل هندسة الميزات: تركز المعالجة المسبقة على تنظيف البيانات الأولية وتنسيقها. هندسة الميزات هي خطوة أكثر إبداعًا تتضمن اشتقاق متغيرات جديدة وذات معنى من تلك البيانات (على سبيل المثال، حساب "السعر للقدم المربع" من "السعر" و"المساحة") لتحسين أداء النموذج أداء النموذج.
  • مقابل توسيم البيانات التوسيم هو العملية اليدوية أو الآلية للتعليق على البيانات (مثل رسم المربعات المحددة) لإنشاء الحقيقة الأساسية. تقوم المعالجة المسبقة بإعداد هذه الصور المصنفة والشروح التوضيحية للشبكة العصبية للشبكة العصبية.

من خلال إتقان المعالجة المسبقة للبيانات، يضع المهندسون الأساس لنجاح مشاريع الذكاء الاصطناعي الناجحة، مما يضمن أن النماذج المتطورة المتطورة مثل YOLO11 ونموذج YOLO26 القادم يمكن أن يؤديا بأقصى إمكاناتهما. بالنسبة لـ إدارة مجموعات البيانات وأتمتة مهام سير العمل هذه، توفر توفر منصةUltralytics بيئة موحدة لتبسيط الرحلة من البيانات الخام إلى النموذج المنشور.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن