مسرد المصطلحات

تقليل البُعدية

تبسيط البيانات عالية الأبعاد باستخدام تقنيات تقليل الأبعاد. حسِّن أداء نموذج التعلم الآلي وتصوره وكفاءته اليوم!

تقليل الأبعاد هو عملية حاسمة في التعلم الآلي (ML) وتحليل البيانات تُستخدم لتقليل عدد السمات (أو الأبعاد) في مجموعة البيانات مع الاحتفاظ بأكبر قدر ممكن من المعلومات ذات المغزى. يمكن أن تؤدي البيانات عالية الأبعاد، التي تحتوي على العديد من الخصائص، إلى تحديات تُعرف باسم "لعنة الأبعاد"، حيث تصبح النماذج مكلفة حسابيًا في التدريب، وتتطلب المزيد من الذاكرة، وتكون عرضة للإفراط في التخصيص، ويمكن أن تكافح من أجل التعميم بشكل جيد بسبب توزيع البيانات المتناثرة. تهدف تقنيات تقليل الأبعاد إلى التخفيف من هذه المشكلات من خلال تحويل البيانات إلى فضاء أقل بُعدًا، وتبسيط النموذج، وتحسين سرعة التدريب، وتحسين أداء النموذج، وتمكين تصور أسهل للبيانات.

كيف يعمل تقليل الأبعاد

تنقسم تقنيات تقليل الأبعاد بشكل عام إلى فئتين رئيسيتين:

اختيار الميزات: تختار هذه الطرق مجموعة فرعية من الميزات الأصلية، مع استبعاد تلك التي تعتبر غير ذات صلة أو زائدة عن الحاجة. الهدف هو الحفاظ على الميزات الأكثر إفادة دون تغييرها. يمكن تصنيف الطرق على أنها تصفية (استنادًا إلى الخصائص الإحصائية)، أو تجميع (استنادًا إلى أداء النموذج)، أو مدمجة (مدمجة في عملية تدريب النموذج).
استخراج السمات: تقوم هذه الطرق بتحويل البيانات الأصلية عالية الأبعاد إلى مساحة ميزات جديدة منخفضة الأبعاد. وبدلاً من مجرد اختيار الميزات فقط، فإنها تنشئ ميزات جديدة (غالبًا ما تكون مزيجًا من الميزات الأصلية) التي تلتقط المعلومات الأساسية. هذا هو المفهوم الأساسي الذي تم تفصيله بشكل أكبر في مدخل مسرد مصطلحات استخلاص السمات.

التقنيات الرئيسية

يشيع استخدام العديد من الخوارزميات لتقليل الأبعاد:

تحليل المكونات الرئيسية (PCA): تقنية خطية مستخدمة على نطاق واسع لاستخراج السمات. يحدد PCA المكونات الرئيسية - وهي سمات جديدة غير مترابطة تلتقط أقصى قدر من التباين في البيانات الأصلية. حيث يقوم بإسقاط البيانات على هذه المكونات، مما يقلل بشكل فعال من الأبعاد مع الحفاظ على معظم تباين البيانات. غالبًا ما يتم تنفيذه باستخدام مكتبات مثل Scikit-learn.
تضمين الجوار العشوائي الموزّع على شكل حرف t: هي تقنية غير خطية تُستخدم بشكل أساسي لتصور البيانات عالية الأبعاد في بُعدين أو ثلاثة أبعاد. تركز تقنية t-SNE على الحفاظ على البنية المحلية للبيانات، حيث تقوم بتعيين نقاط البيانات عالية الأبعاد إلى نقاط منخفضة الأبعاد بحيث تبقى النقاط المتشابهة قريبة من بعضها البعض. على الرغم من أن هذه الطريقة ممتازة للتصور، إلا أنها كثيفة من الناحية الحسابية وأقل ملاءمة لتقليل الأبعاد العامة قبل تدريب النموذج مقارنةً بالتحليل المتسلسل المتعدد الأبعاد. يقدم موقع لورنس فان دير ماتن موارد على t-SNE.
الترميز التلقائي: نوع من الشبكات العصبية (NN) يُستخدم للتعلم غير الخاضع للإشراف واستخراج السمات. يتكون المشفر التلقائي من مشفر يقوم بضغط البيانات المدخلة إلى تمثيل كامن منخفض الأبعاد (طبقة عنق الزجاجة) ومفك شفرة يعيد بناء البيانات الأصلية من هذا التمثيل. ويعمل التمثيل الكامن المضغوط كمخرجات ذات أبعاد منخفضة. غالبًا ما يتم بناؤها باستخدام أطر عمل مثل PyTorch أو TensorFlow.