تضمين الجوار العشوائي المُوَزَّع t (t-SNE)
اكتشف t-SNE، وهي تقنية قوية لتصور البيانات عالية الأبعاد. تعرف على استخداماتها وفوائدها وتطبيقاتها في الذكاء الاصطناعي وتعلم الآلة.
إن تقنية تضمين الجوار القريب العشوائي t-distributed (t-SNE) هي تقنية قوية وغير خطية لتقليل الأبعاد تُستخدم في المقام الأول لتصور البيانات. إنها تتيح للباحثين والممارسين في التعلم الآلي (ML) تصور مجموعات البيانات عالية الأبعاد في مساحة منخفضة الأبعاد، عادةً ما تكون عبارة عن مخطط ثنائي الأبعاد أو ثلاثي الأبعاد. تم تطويره بواسطة Laurens van der Maaten و Geoffrey Hinton، وتتمثل قوته الرئيسية في قدرته الرائعة على الكشف عن البنية المحلية الأساسية للبيانات، مثل المجموعات المتداخلة والتشعبات، والتي قد تفوتها التقنيات الأخرى. تتوفر التطبيقات على نطاق واسع في مكتبات مثل Scikit-learn وأطر عمل مثل PyTorch.
الفكرة الأساسية لـ t-SNE هي وضع نقاط البيانات المتشابهة بالقرب من بعضها البعض والنقاط غير المتشابهة بعيدًا عن بعضها البعض في خريطة منخفضة الأبعاد. يحقق ذلك عن طريق تحويل مسافات إقليدية عالية الأبعاد بين نقاط البيانات إلى احتمالات شرطية تمثل أوجه التشابه. ثم يستخدم توزيع احتمالي مماثل في الخريطة منخفضة الأبعاد ويقلل التباعد بين هذين التوزيعين.
التطبيقات في الذكاء الاصطناعي والتعلم الآلي
يستخدم t-SNE على نطاق واسع للاستكشاف المرئي عبر مجالات مختلفة من الذكاء الاصطناعي (AI).
- تصور ميزات الشبكة العصبية: في رؤية الحاسوب (CV)، يعتبر t-SNE لا يقدر بثمن لفهم ما تعلمه نموذج التعلم العميق. على سبيل المثال، يمكنك أخذ التضمينات للميزات من طبقة وسيطة من شبكة عصبونية التفافية (CNN) مُدرَّبة على تصنيف الصور واستخدام t-SNE لرسمها. إذا كان النموذج، مثل نموذج Ultralytics YOLO، مُدرَّبًا جيدًا على مجموعة بيانات مثل CIFAR-10، فستظهر في الرسم الناتج مجموعات متميزة تتوافق مع فئات الصور المختلفة (مثل "قطط" و"كلاب" و"سيارات"). يوفر هذا تأكيدًا مرئيًا لقوة التمييز في النموذج.
- استكشاف البيانات النصية: في معالجة اللغة الطبيعية (NLP)، يمكن لـ t-SNE تصور تضمينات الكلمات عالية الأبعاد مثل Word2Vec أو GloVe. يساعد هذا في فهم العلاقات الدلالية بين الكلمات؛ على سبيل المثال، تتجمع كلمات مثل "ملك" و "ملكة" و "أمير" و "أميرة" معًا. هذه التصورات مفيدة لاستكشاف مجموعات النصوص وتصحيح أخطاء النماذج اللغوية المستخدمة في مهام مثل تصنيف المستندات.
- المعلوماتية الحيوية والتصوير الطبي (Bioinformatics and Medical Imaging): يستخدم الباحثون t-SNE لتصور البيانات البيولوجية المعقدة، مثل أنماط التعبير الجيني من المصفوفات الدقيقة، لتحديد تجمعات الخلايا أو الأنواع الفرعية من الأمراض. كما أنه يستخدم في تحليل الصور الطبية (medical image analysis) لتجميع أنواع مختلفة من الأنسجة أو الأورام، كما هو الحال في مجموعة بيانات ورم الدماغ (Brain Tumor dataset).
T-SNE مقابل التقنيات الأخرى
من المهم التمييز بين t-SNE وطرق تقليل الأبعاد الأخرى.
- تحليل المكونات الرئيسية (PCA): PCA هي تقنية خطية تركز على الحفاظ على أقصى تباين في البيانات، وهو ما يتوافق مع الحفاظ على الهيكل العام واسع النطاق. في المقابل، t-SNE هي طريقة غير خطية تتفوق في الكشف عن الهيكل المحلي (أي كيف تتجمع نقاط البيانات الفردية معًا). في حين أن PCA أسرع وحتمية، إلا أن طبيعتها الخطية قد تفشل في التقاط العلاقات المعقدة التي يمكن أن تلتقطها t-SNE. من الممارسات الشائعة استخدام PCA أولاً لتقليل مجموعة البيانات إلى عدد وسيط من الأبعاد (على سبيل المثال، 30-50) قبل تطبيق t-SNE لتقليل الحمل الحسابي والضوضاء.
- المشفرات التلقائية: المشفرات التلقائية هي نوع من الشبكات العصبية التي يمكنها تعلم تمثيلات بيانات قوية وغير خطية. في حين أنها أكثر مرونة من PCA و t-SNE، إلا أنها غالبًا ما تكون أقل قابلية للتفسير وأكثر تكلفة من الناحية الحسابية للتدريب. يتم استخدامها في المقام الأول لاستخراج الميزات بدلاً من التصور المباشر.
الاعتبارات والقيود
على الرغم من قوته، إلا أن لـ t-SNE بعض القيود التي يجب على المستخدمين أخذها في الاعتبار.
- التكلفة الحسابية: تحتوي الخوارزمية على تعقيد زمني ومكاني تربيعي في عدد نقاط البيانات، مما يجعلها بطيئة لمجموعات البيانات التي تحتوي على مئات الآلاف من العينات. تقدم تقنيات مثل Barnes-Hut t-SNE تحسينات كبيرة في الأداء.
- حساسية المعلمات الفائقة: يمكن أن تتأثر النتائج بشكل كبير بالمعلمات الفائقة، وخاصة "الاستغراب" (perplexity)، وهو تخمين حول عدد الجيران المقربين لكل نقطة. لا توجد قيمة استغراب واحدة هي الأفضل عالميًا. يعد مقال Distill "كيفية استخدام t-SNE بفعالية" مصدرًا ممتازًا لفهم هذه التأثيرات.
- تفسير الهيكل العام: يجب تفسير تصورات t-SNE بحذر. لا تعكس الأحجام النسبية للمجموعات والمسافات بينها في الرسم البياني النهائي بالضرورة الفصل الفعلي في الفضاء عالي الأبعاد الأصلي. ينصب تركيز الخوارزمية على الحفاظ على الأحياء المحلية، وليس الهندسة الكلية. تسمح أدوات مثل TensorFlow Projector بالاستكشاف التفاعلي، مما يساعد على بناء الحدس. يمكن تبسيط إدارة وتصور هذه التحليلات باستخدام منصات مثل Ultralytics HUB.