Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تحليل المكونات الرئيسية (PCA)

قم بتبسيط البيانات عالية الأبعاد باستخدام تحليل المكونات الرئيسية (PCA). عزز كفاءة الذكاء الاصطناعي ونماذج تعلم الآلة وتصور البيانات اليوم!

تحليل المكوّنات الرئيسية (PCA) هي تقنية خطية تأسيسية خطي تأسيسي لتقليل الأبعاد على نطاق واسع تستخدم على نطاق واسع في الإحصاء، وعلوم البيانات، و والتعلم الآلي (ML). هدفها الأساسي هو تبسيط مجموعات البيانات المعقدة عالية الأبعاد مع الاحتفاظ بالمعلومات الأكثر أهمية. من خلال تحويل المجموعة الأصلية من المتغيّرات المترابطة إلى مجموعة أصغر من المتغيّرات غير المترابطة المعروفة باسم "المكونات الرئيسية"، يُمكّن PCA علماء البيانات من تقليل الضوضاء وتحسين الكفاءة الحسابية و وتسهيل تصور أسهل للبيانات دون التضحية بالأنماط المهمة الموجودة في البيانات.

كيفية عمل تحليل المكونات الرئيسية

تعتمد آلية تحليل PCA على مفاهيم من من الجبر الخطي لتحديد الاتجاهات (المكونات الرئيسية ) التي تتباين فيها البيانات أكثر من غيرها. يلتقط المكوّن الرئيسي الأول الحد الأقصى للتباين في مجموعة البيانات في مجموعة البيانات، وهو ما يمثّل بشكل فعّال الاتجاه الأكثر هيمنة. كل مكوّن لاحق يلتقط التباين المتبقي بترتيب تنازلي، مع مراعاة شرط أن يكون متعامدًا (غير مرتبط) مع المكونات السابقة. هذا التحويل التحويل هذا غالبًا باستخدام مصفوفة التباين مصفوفة التباين وما يقابلها من المتجهات الأصلية والقيم الأصلية المقابلة لها.

من خلال الاحتفاظ فقط بالمكونات القليلة الأعلى، يمكن للممارسين إسقاط البيانات عالية الأبعاد في فضاءٍ منخفض الأبعاد أقل بعدًا - عادةً ثنائي الأبعاد أو ثلاثي الأبعاد. هذه العملية هي خطوة حاسمة في المعالجة المسبقة للبيانات للتخفيف من لعنة الأبعاد، حيث تكافح النماذج من أجل التعميم بسبب ندرة البيانات في الفضاءات عالية الأبعاد. يساعد هذا الاختزال على منع الإفراط في التركيب وتسريع تدريب النموذج.

تطبيقات العالم الحقيقي في الذكاء الاصطناعي والتعلم الآلي

يتم استخدام تحليل PCA عبر طيف واسع من مجالات الذكاء الاصطناعي من أجل لتحسين الأداء وقابلية التفسير.

  1. التعرف على الوجه والضغط: في مجال الرؤية الحاسوبية (CV)، لعبت PCA تاريخيًا دورًا رئيسيًا في التعرف على الوجه من خلال طريقة تعرف باسم "الوجوه الأصلية". يتم التعامل مع الصور على أنها متجهات عالية الأبعاد، ويستخرج PCA السمات الأساسية (المكونات) التي تميز وجهًا عن آخر. وهذا يسمح للأنظمة بتخزين ومقارنة الوجوه باستخدام تمثيل مضغوط بدلاً من بيانات البكسل الخام، مما يحسن السرعة بشكل كبير.
  2. علم الجينوم والمعلوماتية الحيوية: يتعامل الباحثون في مجال المعلوماتية الحيوية مع مجموعات بيانات تحتوي على الآلاف من من مستويات التعبير الجيني لكل عينة. يسمح لهم PCA بإجراء تحليل البيانات الاستكشافية (EDA) عن طريق اختزال هذه الآلاف من الأبعاد في مخطط مبعثر ثنائي الأبعاد. يمكن أن يكشف هذا التصور عن مجموعات من العينات ذات الملامح الجينية المتشابهة، مما يساعد في اكتشاف الأنواع الفرعية للأمراض أو اكتشاف الشذوذ.

التكامل مع الرؤية الحاسوبية الحديثة

في حين أن بنيات التعلم العميق الحديثة مثل الشبكات العصبية التلافيفية (CNNs) تقوم باستخراج السمات الداخلية، يظل تحليل PCA وثيق الصلة بتحليل التمثيلات المكتسبة. على سبيل المثال، يقوم المستخدمون الذين يعملون مع YOLO11 قد يستخرجون الميزة التضمينات من العمود الفقري للنموذج لفهم مدى يفصل النموذج بين الفئات المختلفة.

يوضح المثال التالي كيفية تطبيق PCA لتقليل متجهات السمات عالية الأبعاد باستخدام مكتبة الشهيرة، وهي خطوة وهي خطوة شائعة قبل تصور التضمينات.

import numpy as np
from sklearn.decomposition import PCA

# Simulate high-dimensional features (e.g., embeddings from a YOLO11 model)
# Shape: (100 samples, 512 features)
features = np.random.rand(100, 512)

# Initialize PCA to reduce data to 2 dimensions for visualization
pca = PCA(n_components=2)

# Fit the model and transform the features
reduced_features = pca.fit_transform(features)

# The data is now (100, 2), ready for plotting
print(f"Original shape: {features.shape}")
print(f"Reduced shape: {reduced_features.shape}")

تحليل PCA مقابل التقنيات ذات الصلة

من المفيد تمييز PCA عن طرق تقليل الأبعاد الأخرى وطرق تعلم السمات الموجودة في التعلم غير الخاضع للإشراف:

  • t-SNE (تضمين الجوار العشوائي الموزع t-Dochochastic Neighbor embedding): على عكس PCA، وهي تقنية خطية تركز على الحفاظ على التباين العالمي، فإن t-SNE غير خطية وتتفوق في الحفاظ على هياكل الجوار المحلية. هذا يجعل تقنية t-SNE متفوقة لتصور المجموعات ولكنها أقل ملاءمة ل ضغط البيانات أو إعادة البناء.
  • المبرمجون التلقائيون: وهي نماذج قائمة على الشبكات العصبية التي تتعلم ضغط البيانات وإعادة بنائها. يمكن أن تلتقط برامج الترميز التلقائي العلاقات غير الخطية المعقدة التي يفتقدها التحليل المتسلسل، ولكنها تتطلب المزيد من البيانات والموارد الحاسوبية أكبر بكثير من البيانات والموارد الحاسوبية لتدريبها.
  • اختيار الميزة: بينما يقوم تحليل PCA بإنشاء ميزات (مكونات) جديدة هي عبارة عن مجموعات من المتغيرات الأصلية، فإن اختيار الميزات يتضمن اختيار مجموعة فرعية من السمات الأصلية وتجاهل البقية. غالبًا ما يكون تحليل PCA عندما تساهم جميع السمات الأصلية ببعض المعلومات القيمة.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن