اكتشف t-SNE، وهي تقنية قوية لتصور البيانات عالية الأبعاد. تعرف على استخداماتها وفوائدها وتطبيقاتها في الذكاء الاصطناعي وتعلم الآلة.
تقنية التضمين العشوائي للجوار الموزعة على شكل حرف t هي تقنية متطورة غير خطية متطورة وغير خطية لتقليل الأبعاد تُستخدم في المقام الأول لاستكشاف وتصور البيانات عالية الأبعاد. طورها لورينس فان دير ماتن وجيفري هينتون، تسمح هذه الطريقة الإحصائية للباحثين و وممارسي التعلّم الآلي (ML) بإسقاط مجموعات بيانات معقدة بمئات أو آلاف الأبعاد في فضاء ثنائي الأبعاد أو ثلاثي الأبعاد. على عكس تتفوق طريقة t-SNE في الحفاظ على البنية المحلية للبيانات، مما يجعلها مفيدة بشكل استثنائي في لمهام تصور البيانات حيث تحديد التكتلات والعلاقات بين نقاط البيانات أمر بالغ الأهمية.
تعمل الخوارزمية من خلال تحويل أوجه التشابه بين نقاط البيانات إلى احتمالات مشتركة. في الأصل الأصلية ذات الأبعاد العالية، تقيس t-SNE التشابه بين النقاط باستخدام توزيع غاوسي، حيث يكون للأجسام المتشابهة حيث يكون للأجسام المتشابهة احتمالية عالية لاختيارها كجيران. ثم يحاول بعد ذلك تعيين هذه النقاط إلى فضاء منخفض الأبعاد ("التضمين") عن طريق تقليل التباعد بين التوزيع الاحتمالي للبيانات الأصلية وتلك الخاصة بالبيانات المضمنة. تعتمد هذه العملية بشكل كبير على مبادئ التعلّم غير الخاضع للإشراف، حيث تجد أنماطاً الأنماط دون الحاجة إلى مخرجات مصنفة.
يتمثل أحد الجوانب المهمة في t-SNE في قدرته على التعامل مع "مشكلة الازدحام" في التصور. باستخدام الذيل الثقيل لتوزيع الطالب على شكل حرف t في الخريطة ذات الأبعاد المنخفضة، فإنه يمنع النقاط من التداخل بكثافة كبيرة, مما يضمن بقاء المجموعات المتميزة بصرياً قابلة للفصل بصرياً.
يُعد تصور البيانات عالية الأبعاد خطوة أساسية في في دورة حياة تطوير الذكاء الاصطناعي. t-SNE يوفر حدسًا حول كيفية عرض النموذج للبيانات في مختلف المجالات.
من المهم التمييز بين t-SNE وطرق تقليل الأبعاد الأخرى، حيث أنها تخدم أغراضًا مختلفة في في خط أنابيب التعلم الآلي.
يوضّح المثال التالي كيفية استخدام مكتبة Scikit-learn الشهيرة ل لتصور البيانات عالية الأبعاد. يقوم هذا المقتطف بتوليد مجموعات اصطناعية وإسقاطها في فضاء ثنائي الأبعاد باستخدام t-SNE.
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.manifold import TSNE
# Generate synthetic high-dimensional data (100 samples, 50 features)
X, y = make_blobs(n_samples=100, n_features=50, centers=3, random_state=42)
# Apply t-SNE to reduce features from 50 to 2 dimensions
# Perplexity relates to the number of nearest neighbors to consider
tsne = TSNE(n_components=2, perplexity=30, random_state=42)
X_embedded = tsne.fit_transform(X)
# Visualize the projected 2D data
plt.scatter(X_embedded[:, 0], X_embedded[:, 1], c=y)
plt.title("t-SNE Visualization of Features")
plt.show()
على الرغم من قوتها، إلا أن T-SNE تتطلب ضبطًا دقيقًا ضبطًا دقيقًا للمقياس الفائق. يمكن لمعامل "perplexity"، الذي يوازن الانتباه بين الجوانب المحلية والعالمية للبيانات، يمكن أن تغيير الرسم البياني الناتج بشكل كبير. بالإضافة إلى ذلك، الخوارزمية مكلفة حسابيًا (تعقيد O(N²)), مما يجعلها بطيئة بالنسبة لمجموعات البيانات الكبيرة جدًا مقارنةً بطرق الإسقاط البسيطة.
لا تمثّل المسافات بين المجموعات المنفصلة في مخطط t-SNE بالضرورة مسافات فيزيائية دقيقة في في الفضاء الأصلي؛ فهي تشير في المقام الأول إلى أن المجموعات متمايزة. للاستكشاف التفاعلي للتضمينات غالبًا ما تُستخدم أدوات مثل TensorFlow Embedding Projector جنبًا إلى جنب مع تدريب النموذج. مع تقدم أبحاث الذكاء الاصطناعي نحو YOLO26 و وغيرها من البنى المتكاملة، يظل تفسير هذه المساحات عالية الأبعاد مهارة بالغة الأهمية للتحقق من صحة و واختبار النماذج.