مسرد المصطلحات

تقليل البُعدية

تبسيط البيانات عالية الأبعاد باستخدام تقنيات تقليل الأبعاد. حسِّن أداء نموذج التعلم الآلي وتصوره وكفاءته اليوم!

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

تقليل الأبعاد هو عملية حاسمة في التعلم الآلي (ML) وتحليل البيانات تُستخدم لتقليل عدد السمات (أو الأبعاد) في مجموعة البيانات مع الاحتفاظ بأكبر قدر ممكن من المعلومات ذات المغزى. يمكن أن تؤدي البيانات عالية الأبعاد، التي تحتوي على العديد من الخصائص، إلى تحديات تُعرف باسم "لعنة الأبعاد"، حيث تصبح النماذج مكلفة حسابيًا في التدريب، وتتطلب المزيد من الذاكرة، وتكون عرضة للإفراط في التخصيص، ويمكن أن تكافح من أجل التعميم بشكل جيد بسبب توزيع البيانات المتناثرة. تهدف تقنيات تقليل الأبعاد إلى التخفيف من هذه المشكلات من خلال تحويل البيانات إلى فضاء أقل بُعدًا، وتبسيط النموذج، وتحسين سرعة التدريب، وتحسين أداء النموذج، وتمكين تصور أسهل للبيانات.

كيف يعمل تقليل الأبعاد

تنقسم تقنيات تقليل الأبعاد بشكل عام إلى فئتين رئيسيتين:

  1. اختيار الميزات: تختار هذه الطرق مجموعة فرعية من الميزات الأصلية، مع استبعاد تلك التي تعتبر غير ذات صلة أو زائدة عن الحاجة. الهدف هو الحفاظ على الميزات الأكثر إفادة دون تغييرها. يمكن تصنيف الطرق على أنها تصفية (استنادًا إلى الخصائص الإحصائية)، أو تجميع (استنادًا إلى أداء النموذج)، أو مدمجة (مدمجة في عملية تدريب النموذج).
  2. استخراج السمات: تقوم هذه الطرق بتحويل البيانات الأصلية عالية الأبعاد إلى مساحة ميزات جديدة منخفضة الأبعاد. وبدلاً من مجرد اختيار الميزات فقط، فإنها تنشئ ميزات جديدة (غالبًا ما تكون مزيجًا من الميزات الأصلية) التي تلتقط المعلومات الأساسية. هذا هو المفهوم الأساسي الذي تم تفصيله بشكل أكبر في مدخل مسرد مصطلحات استخلاص السمات.

التقنيات الرئيسية

يشيع استخدام العديد من الخوارزميات لتقليل الأبعاد:

  • تحليل المكونات الرئيسية (PCA): تقنية خطية مستخدمة على نطاق واسع لاستخراج السمات. يحدد PCA المكونات الرئيسية - وهي سمات جديدة غير مترابطة تلتقط أقصى قدر من التباين في البيانات الأصلية. حيث يقوم بإسقاط البيانات على هذه المكونات، مما يقلل بشكل فعال من الأبعاد مع الحفاظ على معظم تباين البيانات. غالبًا ما يتم تنفيذه باستخدام مكتبات مثل Scikit-learn.
  • تضمين الجوار العشوائي الموزّع على شكل حرف t: هي تقنية غير خطية تُستخدم بشكل أساسي لتصور البيانات عالية الأبعاد في بُعدين أو ثلاثة أبعاد. تركز تقنية t-SNE على الحفاظ على البنية المحلية للبيانات، حيث تقوم بتعيين نقاط البيانات عالية الأبعاد إلى نقاط منخفضة الأبعاد بحيث تبقى النقاط المتشابهة قريبة من بعضها البعض. على الرغم من أن هذه الطريقة ممتازة للتصور، إلا أنها كثيفة من الناحية الحسابية وأقل ملاءمة لتقليل الأبعاد العامة قبل تدريب النموذج مقارنةً بالتحليل المتسلسل المتعدد الأبعاد. يقدم موقع لورنس فان دير ماتن موارد على t-SNE.
  • الترميز التلقائي: نوع من الشبكات العصبية (NN) يُستخدم للتعلم غير الخاضع للإشراف واستخراج السمات. يتكون المشفر التلقائي من مشفر يقوم بضغط البيانات المدخلة إلى تمثيل كامن منخفض الأبعاد (طبقة عنق الزجاجة) ومفك شفرة يعيد بناء البيانات الأصلية من هذا التمثيل. ويعمل التمثيل الكامن المضغوط كمخرجات ذات أبعاد منخفضة. غالبًا ما يتم بناؤها باستخدام أطر عمل مثل PyTorch أو TensorFlow.

تقليل البُعدية مقابل المفاهيم ذات الصلة

  • استخراج الميزات: كما ذكرنا، استخلاص الملامح هو نوع من تقليل الأبعاد الذي ينشئ ميزات جديدة من الميزات القديمة. تندرج تقنيات مثل PCA وأجهزة الترميز التلقائي تحت هذه الفئة.
  • هندسة الميزات: وهي عملية أوسع نطاقًا تتضمن إنشاء ميزات واختيارها وتحويلها لتحسين أداء النموذج. يعتبر تقليل البُعدية (الاختيار والاستخراج على حد سواء) جزءًا من هندسة السمات. غالبًا ما تتطلب هندسة الميزات الفعالة خبرة في المجال.
  • ضغط البيانات: في حين أن كلاهما يهدف إلى تقليل حجم البيانات، فإن تقليل الأبعاد يركز بشكل خاص على الحفاظ على المعلومات ذات الصلة بمهام تعلّم الآلة مع احتمال تجاهل بعض التفاصيل الترميمية. يهدف ضغط البيانات القياسي (مثل ملفات ZIP) إلى تقليل حجم التخزين دون خسارة أو مع خسارة مقبولة لإعادة البناء، وليس بالضرورة تحسين مدخلات نموذج تعلّم الآلة.

تطبيقات في الذكاء الاصطناعي والتعلم الآلي

يُعد تقليل الأبعاد أمرًا حيويًا في العديد من تطبيقات الذكاء الاصطناعي (AI) وتعلم الآلة:

  • الرؤية الحاسوبية (CV): تحتوي الصور على كميات هائلة من بيانات البكسل. تقنيات مثل PCA أو استخراج الميزات الكامنة في الشبكات العصبية التلافيفية (CNNs) (المستخدمة في نماذج مثل Ultralytics YOLO) تقلل من هذه الأبعاد، مع التركيز على الأنماط ذات الصلة لمهام مثل اكتشاف الأجسام أو تصنيف الصور. يؤدي ذلك إلى تسريع المعالجة ويمكنه تحسين دقة النموذج. غالبًا ما تتضمن أدلة البيانات قبل المعالجة خطوات تتعلق بمعالجة الميزات.
  • المعلوماتية الحيوية: غالبًا ما يتضمن تحليل البيانات الجينومية مجموعات بيانات تحتوي على الآلاف من التعبيرات الجينية (السمات). يساعد تقليل الأبعاد الباحثين على تحديد الأنماط المهمة المتعلقة بالأمراض أو الوظائف البيولوجية، مما يجعل البيانات البيولوجية المعقدة أكثر قابلية للإدارة. وغالبًا ما تستخدم الدراسات المنشورة في مجلات مثل Nature Methods هذه التقنيات.
  • معالجة اللغة الطبيعية (NLP): يمكن تمثيل البيانات النصية في مساحات عالية الأبعاد باستخدام تقنيات مثل TF أو تضمين الكلمات. يساعد تقليل الأبعاد في تبسيط هذه التمثيلات لمهام مثل تصنيف المستندات، أو نمذجة الموضوعات، أو تحليل المشاعر.
  • تصوّر البيانات: تُعد تقنيات مثل t-SNE لا تقدر بثمن لتخطيط مجموعات البيانات عالية الأبعاد (على سبيل المثال، شرائح العملاء، والمجموعات الجينية) في شكل ثنائي الأبعاد أو ثلاثي الأبعاد، مما يسمح للبشر بفحص وفهم الهياكل أو العلاقات المحتملة داخل البيانات بصريًا. تعمل منصات مثل Ultralytics HUB على تسهيل إدارة مجموعات البيانات والنماذج التي تكون فيها مثل هذه التحليلات ذات صلة.

الفوائد والتحديات

الفوائد:

  • يقلل من التكلفة الحسابية ووقت التدريب.
  • يقلل من متطلبات الذاكرة والتخزين.
  • يمكن أن يخفف من لعنة البُعدية ويقلل من الإفراط في التركيب.
  • يحسن أداء النموذج عن طريق إزالة الضوضاء والتكرار.
  • تمكين تصور البيانات المعقدة عالية الأبعاد.

التحديات:

  • احتمال فقدان معلومات مهمة إذا لم يتم تطبيقها بعناية.
  • قد يكون اختيار التقنية المناسبة والعدد المستهدف من الأبعاد أمراً صعباً.
  • قد يصعب أحيانًا تفسير الميزات المحولة (في استخراج الميزات) مقارنةً بالميزات الأصلية.
  • بعض التقنيات، مثل t-SNE، مكلفة من الناحية الحسابية.

يعد فهم وتطبيق تقليل الأبعاد أمرًا ضروريًا للتعامل بفعالية مع مجموعات البيانات الكبيرة والمعقدة في تطوير الذكاء الاصطناعي الحديث.

قراءة الكل