مسرد المصطلحات

هندسة الميزات

عزز دقة التعلم الآلي باستخدام هندسة الميزات الخبيرة. تعلّم تقنيات إنشاء الميزات المؤثرة وتحويلها واختيارها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

هندسة الميزات هي العملية الحاسمة لاختيار الميزات وتحويلها وإنشاء ميزات من البيانات الأولية لجعلها أكثر ملاءمة لنماذج التعلم الآلي (ML). وهي تتضمن استخدام معرفة المجال وتقنيات تحليل البيانات لصياغة المدخلات التي تمثل المشكلة الأساسية بشكل أفضل، مما يؤدي في النهاية إلى تحسين أداء النموذج ودقته وقابليته للتفسير. فكّر في الأمر على أنه إعداد أفضل المكونات للوصفة؛ فحتى أمهر الطهاة (أو النموذج) يعاني من مكونات رديئة الجودة(بيانات التدريب). غالبًا ما تعتبر هذه الخطوة واحدة من أكثر الأجزاء أهمية واستهلاكًا للوقت في سير عمل التعلم الآلي.

ما أهمية هندسة الميزات؟

نادراً ما تكون البيانات الأولية التي يتم جمعها من العالم الحقيقي جاهزة للاستخدام المباشر في خوارزميات تعلّم الآلة. فقد تحتوي على قيم مفقودة، أو تناقضات، أو معلومات غير ذات صلة، أو قد تكون بتنسيقات غير مناسبة لاستهلاك النموذج (مثل البيانات النصية أو الفئوية). تعالج هندسة الميزات هذه المشكلات من خلال:

  • تحسين أداء النموذج: تبرز الميزات المصممة جيدًا الأنماط ذات الصلة بالمشكلة، مما يسهل على النماذج التعلم والتعميم.
  • تقليل التعقيد: يمكنه تبسيط النماذج من خلال توفير مدخلات أكثر إفادة، مما يقلل أحيانًا من الحاجة إلى بنى أو خوارزميات شديدة التعقيد للكشف عن الأجسام.
  • التعامل مع أنواع البيانات المتنوعة: يوفر طرقًا لتحويل أنواع البيانات المختلفة (النصوص والصور والتصنيفات) إلى تمثيلات رقمية تفهمها الخوارزميات. لمزيد من القراءة، استكشف تقنيات المعالجة المسبقة للبيانات.
  • تعزيز قابلية التفسير: يمكن للميزات ذات المغزى في بعض الأحيان أن تسهل فهم سبب قيام النموذج بتنبؤات معينة، مما يساهم في الذكاء الاصطناعي القابل للتفسير.

تقنيات هندسة السمات الشائعة

تندرج العديد من التقنيات تحت مظلة هندسة الميزات:

  • التعويض: التعامل مع البيانات المفقودة عن طريق ملء الفجوات بقيم تقديرية (على سبيل المثال، المتوسط أو الوسيط أو طرق أكثر تطوراً). تعد معالجة البيانات المفقودة خطوة أولى شائعة.
  • القياس والتطبيع: تعديل نطاق أو توزيع الميزات العددية (على سبيل المثال، ضبط نطاق أو توزيع الميزات العددية (على سبيل المثال، قياس الحد الأدنى-الأقصى وتطبيع الدرجة Z) لمنع الميزات ذات القيم الأكبر من الهيمنة على عملية التعلم.
  • ترميز المتغيرات الفئوية: تحويل البيانات غير العددية (مثل الفئات "أحمر" و"أخضر" و"أزرق") إلى تنسيقات عددية (مثل الترميز أحادي الترميز، ترميز التسمية). انظر ترميز البيانات الفئوية.
  • إنشاء الميزات (التوليد): اشتقاق ميزات جديدة من الميزات الموجودة بناءً على معرفة المجال أو تحليل التفاعل (على سبيل المثال، إنشاء "العمر" من "تاريخ_الميلاد"، أو الجمع بين "الطول" و"الوزن" في "مؤشر كتلة الجسم"، أو استخراج ميزات النص باستخدام TF).
  • التجميع (التجزئة): تجميع البيانات العددية المتصلة في مجموعات أو فترات زمنية منفصلة.
  • تحويل لوغاريتمي: تطبيق تحويل لوغاريتمي للتعامل مع توزيعات البيانات المنحرفة. استكشف تحويلات البيانات لمزيد من التفاصيل.
  • اختيار الميزات: تحديد الميزات الأكثر ملاءمة والاحتفاظ بها فقط، والتخلص من الميزات الزائدة أو غير ذات الصلة لتبسيط النموذج وربما تحسين الأداء. يرتبط ذلك ارتباطًا وثيقًا بتقليل الأبعاد.

هندسة الميزات مقابل استخراج الميزات

على الرغم من استخدامهما بالتبادل في كثير من الأحيان، إلا أن هندسة الميزات واستخراج الميزات لهما فروق دقيقة مميزة.

  • هندسة الميزات: عملية أوسع نطاقًا تشمل استخراج الميزات ولكنها تتضمن أيضًا إنشاء ميزات جديدة يدويًا، وتحويل الميزات الموجودة استنادًا إلى الخبرة في المجال، واختيار أفضل الميزات. وغالبًا ما تتطلب إبداعًا وفهمًا عميقًا للبيانات والمشكلة.
  • استخراج الميزات: يركز بشكل خاص على تحويل البيانات الخام، التي غالبًا ما تكون عالية الأبعاد (مثل الصور أو قراءات أجهزة الاستشعار الخام) تلقائيًا إلى مجموعة من الميزات ذات الأبعاد المنخفضة والأكثر قابلية للإدارة. تقنيات مثل تحليل المكوّنات الرئيسية (PCA) أو التعلّم التلقائي للميزات الذي يتم إجراؤه بواسطة طبقات في الشبكات العصبية التلافيفية (CNNs) هي أمثلة على استخراج الميزات.

من حيث الجوهر، غالبًا ما يكون استخراج الميزة أداة تُستخدم ضمن عملية أوسع نطاقًا لهندسة الميزة.

التطبيقات الواقعية

  1. الصيانة التنبؤية: في مجال التصنيع، قد تكون بيانات المستشعرات الأولية (الاهتزاز ودرجة الحرارة والضغط) من الآلات صاخبة وعالية الأبعاد. يمكن أن تتضمن هندسة الميزات حساب المتوسطات المتداولة، أو الانحرافات المعيارية على النوافذ الزمنية، أو ميزات المجال الترددي (مثل FFT)، أو إنشاء ميزات تشير إلى حدوث طفرات أو تغييرات مفاجئة. تسهّل هذه الميزات الهندسية على نموذج التعلم الآلي التنبؤ بالأعطال المحتملة للمعدات قبل حدوثها، كما تمت مناقشته في الذكاء الاصطناعي في التصنيع.
  2. التنبؤ باضطراب العملاء: للتنبؤ بالعملاء الذين قد يتوقفون عن استخدام الخدمة، تتضمن البيانات الأولية سجلات الاستخدام والتركيبة السكانية وسجل تذاكر الدعم وسجلات الشراء. يمكن أن تتضمن هندسة الميزات إنشاء ميزات مثل "متوسط مدة الجلسة" أو "الوقت منذ آخر عملية شراء" أو "عدد تذاكر الدعم في الشهر الأخير" أو "نسبة التعليقات الإيجابية إلى السلبية" أو "قيمة عمر العميل". وتوفر هذه الميزات المشتقة إشارات أكثر ثراءً للتنبؤ بالتخبط مقارنةً بالسجلات الأولية وحدها. هذا الأمر وثيق الصلة بالذكاء الاصطناعي في مجال التمويل والبيع بالتجزئة.

هندسة الميزات و Ultralytics

في حين أن النماذج المتقدمة مثل Ultralytics YOLO تتفوق في مهام مثل اكتشاف الأجسام وتجزئة الصور من خلال التعلم التلقائي للسمات البصرية ذات الصلة من خلال بنيات الشبكات العصبية العميقة(العمود الفقري والرقبة والرأس)، تظل مبادئ هندسة السمات ذات صلة. على سبيل المثال، تُعد المعالجة المسبقة للصور المُدخَلة (على سبيل المثال، معادلة الرسم البياني للإضاءة المتفاوتة، أو تقليل الضوضاء باستخدام مكتبات مثل OpenCV، أو تطبيق عمليات تعزيز بيانات محددة مصممة خصيصًا لمجال المشكلة) قبل إدخالها في نموذج YOLO شكلاً من أشكال هندسة السمات التي يمكن أن تحسن من متانة وأداء النموذج. علاوةً على ذلك، يمكن هندسة مخرجات YOLO (مثل إحداثيات المربع المحدود، وفئات الكائنات، والأعداد) في ميزات للمهام النهائية أو دمجها مع مصادر بيانات أخرى لتحليل أكثر تعقيدًا، وربما تتم إدارتها داخل منصات مثل Ultralytics HUB التي تساعد في تنظيم مجموعات البيانات والنماذج. استكشف وثائقUltralytics والدروس التعليمية لمزيد من المعلومات حول استخدام النماذج والتدريب المخصص والمعالجة المسبقة للبيانات المشروحة. يمكن لأدوات مثل Featuretools أن تساعد أيضًا في أتمتة أجزاء من عملية هندسة الميزات، بما يتماشى مع المفاهيم في التعلم الآلي الآلي (AutoML). تظل هندسة الميزات الفعّالة، حتى إلى جانب نماذج التعلم العميق القوية، جانبًا أساسيًا في ممارسات التعلم الآلي الآلي الناجحة.

قراءة الكل