تبسيط البيانات عالية الأبعاد باستخدام تحليل المكونات الرئيسية (PCA). عزز كفاءة الذكاء الاصطناعي ونماذج التعلم الآلي وتصور البيانات اليوم!
تحليل المكونات الرئيسية (PCA) هو تقنية أساسية لتقليل الأبعاد في التعلم الآلي (ML). هدفها الأساسي هو تبسيط تعقيد البيانات عالية الأبعاد مع الاحتفاظ بأكبر قدر ممكن من المعلومات الأصلية (التباين). ويحقق ذلك من خلال تحويل مجموعة المتغيرات الأصلية إلى مجموعة جديدة أصغر من المتغيرات غير المترابطة تسمى "المكونات الرئيسية". يتم ترتيب هذه المكونات بحيث تحتفظ المكونات القليلة الأولى بمعظم التباين الموجود في مجموعة البيانات الأصلية. هذا يجعل من تحليل PCA أداة لا تقدر بثمن للمعالجة المسبقة للبيانات واستكشاف البيانات وتصور البيانات.
يحدد تحليل PCA في جوهره اتجاهات التباين الأقصى في مجموعة البيانات. تخيل مخطط مبعثر من نقاط البيانات؛ يجد PCA الخط الذي يلتقط أفضل انتشار للبيانات. يمثل هذا الخط المكون الرئيسي الأول. أما المكوّن الرئيسي الثاني فهو خط آخر عمودي على الخط الأول، وهو يلتقط أكبر قدر من التباين التالي. من خلال إسقاط البيانات الأصلية على هذه المكونات الجديدة، ينشئ تحليل PCA تمثيلاً منخفض الأبعاد يقوم بتصفية الضوضاء وإبراز الأنماط الأكثر أهمية. تعد هذه العملية ضرورية لتحسين أداء النموذج من خلال تقليل مخاطر الإفراط في التركيب وتقليل الموارد الحاسوبية اللازمة للتدريب.
يُستخدم تحليل PCA على نطاق واسع في مختلف مجالات الذكاء الاصطناعي والرؤية الحاسوبية.
تحليل PCA هو أسلوب خطي، بمعنى أنه يفترض أن العلاقات بين المتغيرات خطية. على الرغم من قوتها وقابليتها للتفسير، إلا أنها قد لا تلتقط الهياكل المعقدة وغير الخطية بشكل فعال.
وعلى الرغم من وجود تقنيات أكثر تقدمًا، إلا أن تحليل البُعد الواحد PCA يظل أداة قيّمة، وغالبًا ما يُستخدم كخط أساس أو خطوة أولية في استكشاف البيانات وخطوط المعالجة المسبقة. وضمن منظومة Ultralytics، بينما تستخدم نماذج مثل Ultralytics YOLO استخراج الميزات المدمجة في العمود الفقري لشبكة CNN، فإن مبادئ تقليل الأبعاد هي المفتاح. وتساعد منصات مثل Ultralytics HUB في إدارة سير عمل تعلّم الآلة بالكامل، بدءاً من تنظيم مجموعات البيانات إلى نشر النماذج، حيث تُعد خطوات المعالجة المسبقة هذه ضرورية لتحقيق أفضل النتائج.