اكتشف Mixture of Experts (MoE)، وهي بنية ذكاء اصطناعي متطورة تتيح نماذج فعالة وقابلة للتطوير في مجال البرمجة اللغوية العصبية والرؤية والروبوتات وغيرها.
مزيج من الخبراء (MoE) هي بنية شبكة عصبية (NN) تمكّن النماذج من التعلم بكفاءة أكبر من خلال تقسيم المشكلة بين نماذج فرعية متخصصة، تُعرف باسم "الخبراء". وبدلاً من نموذج واحد متجانس يعالج كل مدخل، تستخدم بنية MoE "شبكة بوابات" لتوجيه كل مدخل بشكل ديناميكي إلى الخبير (الخبراء) الأكثر صلة. هذا النهج مستوحى من الفكرة القائلة بأن فريقاً من المتخصصين، كل منهم بارع في مهمة محددة، يمكنه أن يحل المشاكل المعقدة بشكل جماعي أكثر فعالية من خبير واحد. يسمح هذا الحساب الشرطي لنماذج MoE بالتوسع في عدد هائل من المعلمات مع الحفاظ على التكلفة الحسابية للاستدلال قابلة للإدارة، حيث يتم استخدام جزء بسيط فقط من النموذج لأي مدخلات معينة.
تتكون بنية وزارة التربية والتعليم من مكونين أساسيين:
الشبكات الخبيرة: وهي عبارة عن شبكات عصبية متعددة أصغر حجماً، وغالباً ما تكون ذات بنيات متطابقة، يتم تدريبها لتصبح متخصصة في أجزاء مختلفة من البيانات. على سبيل المثال، في نموذج لمعالجة اللغات الطبيعية (NLP)، قد يتخصص أحد الخبراء في ترجمة اللغة الإنجليزية إلى الفرنسية، بينما يتخصص خبير آخر في توليد أكواد لغة بايثون. كل خبير هو مكون من نظام تعلم عميق أكبر.
شبكة بوابات: وهي عبارة عن شبكة عصبية صغيرة تعمل كمراقب أو موجه لحركة المرور. فهي تأخذ المدخلات وتحدد الخبير أو مجموعة الخبراء الأنسب للتعامل معها. تقوم الشبكة البوابية بإخراج احتمالات لكل خبير، وبناءً على هذه الاحتمالات، تقوم الشبكة بتفعيل خبير واحد أو عدد قليل من الخبراء بشكل انتقائي لمعالجة المدخلات. غالبًا ما يُطلق على هذه التقنية المتمثلة في تنشيط مجموعة فرعية فقط من الشبكة اسم التنشيط المتناثر، وهي مفهوم أساسي مفصل في أوراق بحثية مؤثرة مثل"الشبكات العصبية الكبيرة جدًا" من Google.
أثناء عملية التدريب، يتم تدريب كل من الشبكات الخبيرة وشبكة البوابات في وقت واحد باستخدام الانتساب العكسي. لا يتعلم النظام ليس فقط كيفية حل المهمة داخل الخبراء ولكن أيضًا كيفية توجيه المدخلات بفعالية عبر شبكة البوابة، حيث يتعلم النظام كيفية حل المهمة داخل الخبراء.
غالبًا ما تتم مقارنة خليط الخبراء بمجموعة النماذج، لكنهما يعملان على مبادئ مختلفة جوهريًا.
أصبحت بنيات وزارة التربية والتعليم بارزة بشكل خاص في توسيع نطاق النماذج الحديثة، خاصةً في مجال البرمجة اللغوية العصبية.
ينطوي تنفيذ نماذج MoE بفعالية على تحديات مثل ضمان الحمل المتوازن بين الخبراء (منع الإفراط في استخدام بعض الخبراء أو التقليل من استخدامهم)، وإدارة نفقات الاتصال الزائدة في بيئات التدريب الموزعة (كما هو واضح في أطر العمل مثل PyTorch و TensorFlow)، والتعقيد المتزايد في عملية التدريب. من الضروري أيضاً النظر بعناية في خيارات نشر النماذج وإدارتها باستخدام منصات مثل Ultralytics HUB.