اكتشف معمارية Mixture of Experts (MoE)، وهي طفرة في مجال الذكاء الاصطناعي تتيح نماذج قابلة للتطوير وفعالة لمعالجة اللغات الطبيعية (NLP)، والرؤية الحاسوبية، والروبوتات، وغيرها.
مزيج من الخبراء (MoE) هو عبارة عن بنية متخصصة شبكة عصبونية متخصصة (NN) مصممة لتوسيع نطاق لتوسيع سعة النموذج بكفاءة دون زيادة تناسبية في التكلفة الحسابية. على عكس النماذج "الكثيفة" التقليدية حيث تكون كل معلمة نشطة لكل مدخل، يستخدم نموذج MoE تقنية تسمى الحوسبة الشرطية. وهذا يسمح للنظام بتفعيل مجموعة فرعية صغيرة فقط من إجمالي المعلمات - المعروفة باسم "الخبراء" - بناءً على المتطلبات المحددة لبيانات المدخلات. من خلال الاستفادة من هذا التفعيل المتناثر، يمكن للباحثين تدريب أنظمة ضخمة، مثل نماذج اللغة الكبيرة (LLMs)، التي تمتلك تريليونات من المعلمات مع الحفاظ على على زمن استنتاج وسرعة نموذج أصغر بكثير. أصغر بكثير.
يستبدل إطار عمل MoE الطبقات الكثيفة القياسية بطبقة MoE متناثرة، والتي تتكون من عنصرين أساسيين يعملان جنبًا إلى جنب لمعالجة المعلومات:
في حين أن كلتا البنيتين تتضمنان نماذج فرعية متعددة، إلا أنه من الضروري التمييز بين خليط الخبراء عن مجموعة النماذج.
أصبحت بنية MoE حجر الزاوية للذكاء الاصطناعي الحديث عالي الأداء، خاصةً في السيناريوهات التي تتطلب قدرة هائلة على الاحتفاظ بالمعرفة وقدرات متعددة المهام.
إن فهم آلية التوجيه هو المفتاح لفهم كيفية عمل وزارة التربية والتعليم. فيما يلي PyTorch مقتطفًا يوضّح آلية توجيه مبسّطة التي تختار أفضل خبيرين لدفعة مُدخَلات مُعيَّنة.
import torch
import torch.nn as nn
# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128
# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim) # Batch of 4 inputs
# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)
# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)
print(f"Selected Expert Indices:\n{indices}")
على الرغم من كفاءتها، فإن نماذج وزارة التربية والتعليم تُدخل التعقيد في عملية التدريب. التحدي الأساسي هو موازنة الأحمال؛ فقد تتقارب شبكة البوابات إلى حالة تقوم فيها بتوجيه كل شيء إلى عدد قليل من الخبراء "المشهورين"، تاركةً الآخرين غير مدربين. ولمنع ذلك، يطبق الباحثون دالات خسارة مساعدة مساعدة تشجع التوزيع المنتظم عبر جميع الخبراء. بالإضافة إلى ذلك، يتطلب تطبيق MoE بنية تحتية متطورة بنية تحتية تدريبية موزعة متطورة لإدارة التواصل بين الخبراء المنقسمين عبر وحدات معالجة الرسومات المختلفة. مكتبات مثل Microsoft DeepSpeed و تم تطوير شبكةTensorFlow Mesh خصيصًا للتعامل مع هذه عقبات التوازي هذه.