Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

تضمين الجوار العشوائي المُوَزَّع t (t-SNE)

اكتشف كيفية قيام t-SNE بتصور البيانات عالية الأبعاد. تعلم كيفية الكشف عن المجموعات في ميزات الرؤية الحاسوبية لـ Ultralytics وتحسين نماذج التعلم الآلي.

التوزيع العشوائي للجيران (t-SNE) هو طريقة إحصائية لتصور البيانات عالية الأبعاد عن طريق إعطاء كل نقطة بيانات موقعًا في خريطة ثنائية أو ثلاثية الأبعاد. هذه التقنية، وهي شكل من أشكال تقليل الأبعاد غير الخطية، تستخدم على نطاق واسع في التعلم الآلي لاستكشاف مجموعات البيانات التي تحتوي على مئات أو آلاف من الميزات. على عكس الطرق الخطية التي تركز على الحفاظ على الهياكل العالمية، تتفوق t-SNE في الحفاظ على الحالات المتشابهة قريبة من بعضها البعض، مما يكشف عن المجموعات والمتعددات المحلية التي قد تظل مخفية بخلاف ذلك. وهذا يجعلها أداة لا تقدر بثمن لكل شيء بدءًا من البحوث الجينومية وحتى فهم المنطق الداخلي للشبكات العصبية العميقة.

كيف يعمل t-SNE

تتمثل الفكرة الأساسية وراء t-SNE في تحويل أوجه التشابه بين نقاط البيانات إلى احتمالات مشتركة. في الفضاء الأصلي عالي الأبعاد، يقيس الخوارزمية التشابه بين النقاط باستخدام توزيع غاوسي. إذا كانت نقطتان قريبتين من بعضهما، فمن المحتمل أن تكونا "جارتين". ثم تحاول الخوارزمية تعيين هاتين النقطتين في فضاء منخفض الأبعاد (عادةً ثنائي الأبعاد أو ثلاثي الأبعاد) مع الحفاظ على هذه الاحتمالات.

لتحقيق ذلك، فإنه يحدد توزيع احتمالي مماثل في الخريطة ذات الأبعاد الأقل باستخدام توزيع تي الطالب . هذا التوزيع المحدد له ذيول أثقل من التوزيع الغاوسي العادي، مما يساعد في معالجة "مشكلة الازدحام" — وهي ظاهرة حيث تميل النقاط في الفضاء عالي الأبعاد إلى الانهيار فوق بعضها البعض عندما يتم إسقاطها لأسفل. من خلال دفع النقاط غير المتشابهة إلى مسافات أبعد في التصور، يخلق t-SNE مجموعات مميزة وقابلة للقراءة تكشف عن البنية الأساسية لبيانات التدريب. يتعلم الخوارزمية بشكل فعال أفضل تمثيل للخريطة من خلال التعلم غير الخاضع للإشراف عن طريق تقليل الاختلاف بين توزيعات الاحتمالات عالية الأبعاد ومنخفضة الأبعاد.

تطبيقات العالم الحقيقي في الذكاء الاصطناعي

t-SNE هي أداة قياسية لتحليل البيانات الاستكشافي (EDA) وتشخيص النماذج . وهي تتيح للمهندسين "رؤية" ما يتعلمه النموذج.

  • التحقق من ميزات الرؤية الحاسوبية: في سير عمل الكشف عن الكائنات باستخدام نماذج مثل YOLO26، غالبًا ما يحتاج المطورون إلى التحقق مما إذا كان بإمكان الشبكة التمييز بين الفئات المتشابهة بصريًا. من خلال استخراج خرائط الميزات من الطبقات النهائية للشبكة وعرضها باستخدام t-SNE، يمكن للمهندسين تصور ما إذا كانت صور "القطط" تتجمع بشكل منفصل عن "الكلاب". إذا كانت المجموعات مختلطة، فهذا يشير إلى أن قدرات استخراج الميزات في النموذج تحتاج إلى تحسين.
  • معالجة اللغة الطبيعية (NLP): يستخدم t-SNE بكثرة لتصور تضمينات الكلمات. عندما يتم إسقاط متجهات الكلمات عالية الأبعاد (غالبًا أكثر من 300 بُعد) في بُعد ثنائي الأبعاد، يتم تجميع الكلمات ذات المعاني الدلالية المتشابهة معًا بشكل طبيعي. على سبيل المثال، قد يُظهر مخطط t-SNE مجموعة تحتوي على "ملك" و"ملكة" و"أمير" و "ملك"، مما يدل على أن نموذج معالجة اللغة الطبيعية (NLP) يفهم مفهوم الملكية.
  • علم الجينوميات والمعلوماتية الحيوية: يستخدم الباحثون t-SNE لتصور بيانات تسلسل الحمض النووي الريبوزي أحادي الخلية. من خلال تقليل آلاف قيم التعبير الجيني إلى رسم بياني ثنائي الأبعاد، يمكن للعلماء تحديد أنواع الخلايا المتميزة وتتبع مسارات التطور، مما يساعد في اكتشاف رؤى بيولوجية جديدة وعلامات الأمراض.

مقارنة مع PCA

من المهم التمييز بين t-SNE و تحليل المكونات الرئيسية (PCA)، وهو تقنية أخرى شائعة لتقليل الأبعاد.

  • PCA هي تقنية خطية تركز على الحفاظ على التباين الشامل للبيانات. وهي تحديدية وفعالة من الناحية الحسابية، مما يجعلها ممتازة لضغط البيانات الأولي أو تقليل الضوضاء.
  • t-SNE هي تقنية غير خطية تركز على الحفاظ على الجوار المحلي. وهي احتمالية (عشوائية) وأكثر تعقيدًا من الناحية الحسابية، ولكنها تنتج تصورات أفضل بكثير للمتعددات المعقدة غير الخطية .

من أفضل الممارسات الشائعة في معالجة البيانات المسبقة استخدام PCA أولاً لتقليل حجم البيانات إلى حجم يمكن إدارته (على سبيل المثال، 50 بُعدًا) ثم تطبيق t-SNE للتصور النهائي . يقلل هذا النهج الهجين من الحمل الحسابي ويقوم بتصفية الضوضاء التي قد تؤدي إلى تدهور نتيجة t-SNE .

Python : تصور الميزات

يوضح المثال التالي كيفية استخدام scikit-learn لتطبيق t-SNE على مجموعة بيانات اصطناعية. يعكس سير العمل هذا كيفية تصور الميزات المستخرجة من نموذج التعلم العميق.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.manifold import TSNE

# Generate synthetic high-dimensional data (100 samples, 50 features, 3 centers)
X, y = make_blobs(n_samples=100, n_features=50, centers=3, random_state=42)

# Apply t-SNE to reduce dimensions from 50 to 2
# 'perplexity' balances local vs global aspects of the data
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_embedded = tsne.fit_transform(X)

# Plot the result to visualize the 3 distinct clusters
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y)
plt.title("t-SNE Projection of High-Dimensional Data")
plt.show()

الاعتبارات الرئيسية

على الرغم من قوة t-SNE، إلا أنه يتطلب ضبطًا دقيقًا للمعلمات الفائقة. تعتبر معلمة "التعقيد" حاسمة؛ فهي تقدّر بشكل أساسي عدد الجيران القريبين لكل نقطة. قد يؤدي تعيين قيمة منخفضة جدًا أو عالية جدًا إلى تصورات مضللة. علاوة على ذلك، لا يحافظ t-SNE على المسافات الشاملة بشكل جيد، مما يعني أن المسافة بين مجموعتين متميزتين على الرسم البياني لا تعكس بالضرورة المسافة الفعلية بينهما في المساحة الأصلية. على الرغم من هذه الفروق الدقيقة، تظل هذه التقنية أساسية للتحقق من صحة بنى الرؤية الحاسوبية (CV) وفهم مجموعات البيانات المعقدة. غالبًا ما يستفيد المستخدمون الذين يديرون مجموعات بيانات واسعة النطاق من Ultralytics لتنظيم بياناتهم قبل إجراء مثل هذا التحليل المتعمق.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن