هندسة الميزات
عزّز دقة تعلم الآلة من خلال هندسة الميزات الاحترافية. تعلّم تقنيات إنشاء الميزات المؤثرة وتحويلها واختيارها.
هندسة السمات هو فن وعلم الاستفادة من المعرفة بالمجال لتحويل البيانات الأولية إلى سمات مفيدة
مفيدة تمثل المشكلة الأساسية بشكل أكثر فعالية للنماذج التنبؤية. في النطاق الأوسع ل
التعلم الآلي (ML)، نادرًا ما تكون البيانات الأولية جاهزة
للمعالجة الفورية؛ فغالباً ما تحتوي على ضوضاء أو قيم مفقودة أو تنسيقات لا تستطيع الخوارزميات تفسيرها
مباشرة. من خلال إنشاء ميزات جديدة أو تعديل الميزات الموجودة، يمكن للمهندسين تحسين
دقة النموذج وأدائه، وغالباً ما يؤدي ذلك إلى نتائج أفضل
أفضل من مجرد الانتقال إلى خوارزمية أكثر تعقيدًا. تعمل هذه العملية على سد الفجوة بين المعلومات الأولية
الخام التي تم جمعها والتمثيل الرياضي المطلوب
النمذجة التنبؤية.
التقنيات الأساسية في هندسة الميزات
تتضمن العملية عادةً عدة خطوات تكرارية مصممة لكشف الإشارات الأكثر صلة في البيانات. في حين أن
أدوات مثل مكتبةPandas في Python تسهّل هذه المعالجات، فإن الاستراتيجية
تعتمد الاستراتيجية بشكل كبير على فهم مجال المشكلة المحددة.
-
الاحتساب والتنظيف: قبل إنشاء ميزات جديدة، يجب تثبيت البيانات. يتضمن ذلك
معالجة القيم المفقودة من خلال
تقنيات تنظيف البيانات، مثل ملء الفجوات مع
بالمتوسط أو الوسيط أو القيمة المتوقعة - وهي عملية تعرف باسم
التضمين.
-
التحويل والقياس: تؤدي العديد من الخوارزميات أداءً ضعيفًا عندما يكون أداء متغيرات المدخلات
بمقاييس مختلفة. تقنيات مثل
التطبيع (قياس البيانات إلى نطاق من 0 إلى 1)
أو التوحيد القياسي (توسيط البيانات حول المتوسط) لضمان عدم هيمنة سمة واحدة على عملية التعلم
بسبب حجمها فقط.
-
ترميز البيانات الفئوية: تتطلب النماذج بشكل عام مدخلات رقمية. تتضمن هندسة السمات
تحويل التسميات النصية أو
البيانات الفئوية إلى
أرقام. تتضمن الطرق الشائعة ترميز التسميات و
ترميز التسمية والترميز أحادي الخط، والذي ينشئ أعمدة ثنائية لكل فئة.
-
بناء الميزات: هذا هو الجانب الإبداعي حيث يتم اشتقاق متغيرات جديدة. على سبيل المثال، في
مجموعة البيانات العقارية، بدلاً من استخدام "الطول" و"العرض" بشكل منفصل، قد يقوم المهندس
مضاعفتهما لإنشاء ميزة "اللقطات المربعة"، والتي ترتبط بقوة أكبر بالسعر.
-
اختيار الميزات: يمكن أن تؤدي إضافة الكثير من الميزات إلى
إلى الإفراط في التركيب، حيث يحفظ النموذج الضوضاء.
تساعد تقنيات مثل الإزالة التكرارية للميزات أو
تقليل الأبعاد في تحديد
والاحتفاظ فقط بالسمات الأكثر تأثيراً.
هندسة الميزات في الرؤية الحاسوبية
في مجال الرؤية الحاسوبية (CV)، غالبًا ما تأخذ الميزة
هندسة الميزات غالبًا ما تأخذ شكل
زيادة البيانات. بينما تتعلم نماذج التعلم العميق الحديثة
الحديثة تتعلم التسلسل الهرمي والأنماط تلقائيًا، يمكننا "هندسة" بيانات التدريب لتكون أكثر قوة من خلال
محاكاة الظروف البيئية المختلفة. تعديل
تكوينات ضبط البارامتر الفائق لتشمل
التحوّلات الهندسية يسمح للنموذج بتعلّم ميزات غير متغيرة للاتجاه أو المنظور.
يوضح المقتطف البرمجي التالي كيفية تطبيق هندسة الميزات القائمة على التعزيز أثناء تدريب
YOLO11 النموذج. من خلال تعديل وسائط مثل
degrees و shear، نقوم بتجميع تنويعات ميزات جديدة من مجموعة البيانات الأصلية.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentation hyperparameters acting as on-the-fly feature engineering
# 'degrees' rotates images +/- 10 deg, 'shear' changes perspective
model.train(data="coco8.yaml", epochs=3, degrees=10.0, shear=2.5)
تطبيقات واقعية
يمكن فهم قيمة هندسة الميزات بشكل أفضل من خلال تطبيقها العملي في مختلف الصناعات.
-
تقييم المخاطر المالية: في القطاع المالي، تعتبر سجلات المعاملات الأولية غير كافية لـ
لتقييم الجدارة الائتمانية. يستخدم الخبراء
الذكاء الاصطناعي في التمويل
لإنشاء نسب مثل "الدين إلى الدخل" أو "معدل استخدام الائتمان". توفر هذه الميزات المصممة
توفر هذه الميزات المصممة هندسيًا إشارة مباشرة إلى الصحة المالية، مما يتيح إمكانية
نمذجة مخاطر الائتمان بدقة أكبر مقارنةً باستخدام أرقام
الراتب أو أرقام الديون بمعزل عن استخدام أرقام الرواتب أو الديون الخام.
-
الصيانة التنبؤية في التصنيع: في
الذكاء الاصطناعي في التصنيع، تجمع أجهزة الاستشعار
بيانات عالية التردد عن الاهتزازات ودرجة الحرارة. غالبًا ما يكون تغذية قراءات المستشعرات الخام مباشرةً في نموذج ما صاخبًا
وغير فعالة. بدلاً من ذلك، يستخدم المهندسون
تحليل السلاسل الزمنية لإنشاء ميزات مثل
"متوسط درجة الحرارة المتداول خلال الساعة الأخيرة" أو "الانحراف المعياري للاهتزاز". هذه
تلتقط هذه الميزات المجمّعة الاتجاهات والحالات الشاذة التي تشير إلى تآكل الماكينة بشكل أفضل بكثير من
اللحظية.
التمييز عن المصطلحات ذات الصلة
من المفيد التمييز بين هندسة الميزات والمفاهيم المماثلة لتجنب الخلط في مناقشات سير العمل.
-
هندسة الميزات مقابل استخراج الميزات: على الرغم من استخدامهما بالتبادل في كثير من الأحيان، إلا أن هناك فارقًا بسيطًا.
تنطوي هندسة الميزات على عملية يدوية وإبداعية لإنشاء مدخلات جديدة بناءً على
معرفة المجال. في المقابل,
غالبًا ما يشير استخراج الميزات إلى
الآلية أو الإسقاطات الرياضية (مثل PCA) التي تقطر البيانات عالية الأبعاد إلى تمثيل كثيف. في
التعلم العميق (DL)، الطبقات في
الشبكات العصبية التلافيفية (CNNs)
بإجراء الاستخراج الآلي للميزات عن طريق تعلم مرشحات الحواف والقوام.
-
هندسة الميزات مقابل التضمينات: في المعالجة الحديثة
معالجة اللغات الطبيعية الحديثة، تم استبدال إنشاء الميزات يدويًا (مثل حساب تردد الكلمات) إلى حد كبير ب
التضمينات. التضمينات هي متجهات كثيفة
كثيفة يتم تعلمها بواسطة النموذج نفسه لالتقاط المعنى الدلالي. في حين أن التضمينات هي شكل من أشكال الميزات,
يتم تعلمها عن طريق
التعلم الآلي الآلي (AutoML)
بدلاً من "هندستها" يدويًا بشكل صريح.
من خلال إتقان هندسة الميزات، يمكن للمطورين بناء نماذج لا تكون أكثر دقة فحسب، بل أكثر كفاءة أيضًا,
تتطلب طاقة حاسوبية أقل لتحقيق أداء عالٍ.