اكتشف معمارية Mixture of Experts (MoE)، وهي طفرة في مجال الذكاء الاصطناعي تتيح نماذج قابلة للتطوير وفعالة لمعالجة اللغات الطبيعية (NLP)، والرؤية الحاسوبية، والروبوتات، وغيرها.
إن نموذج Mixture of Experts (MoE) عبارة عن بنية شبكة عصبية (NN) تتيح للنماذج التعلم بكفاءة أكبر عن طريق تقسيم المشكلة بين النماذج الفرعية المتخصصة، والمعروفة باسم "الخبراء". بدلاً من قيام نموذج واحد ومتجانس بمعالجة كل إدخال، تستخدم بنية MoE "شبكة بوابات" لتوجيه كل إدخال ديناميكيًا إلى الخبير (الخبراء) الأكثر صلة. هذا النهج مستوحى من فكرة أن فريقًا من المتخصصين، يتفوق كل منهم في مهمة محددة، يمكنهم بشكل جماعي حل المشكلات المعقدة بفعالية أكبر من متخصص عام واحد. يسمح هذا الحساب الشرطي لنماذج MoE بالتوسع إلى عدد هائل من المعلمات مع الحفاظ على التكلفة الحسابية لـ الاستدلال قابلة للإدارة، حيث يتم استخدام جزء صغير فقط من النموذج لأي إدخال معين.
يتكون تصميم MoE من عنصرين أساسيين:
شبكات الخبراء: هي عبارة عن شبكات عصبية أصغر متعددة، غالبًا ما تكون ذات بنى متطابقة، يتم تدريبها لتصبح متخصصين في أجزاء مختلفة من البيانات. على سبيل المثال، في نموذج لمعالجة اللغة الطبيعية (NLP)، قد يتخصص أحد الخبراء في ترجمة اللغة الإنجليزية إلى الفرنسية، بينما يصبح خبير آخر في إنشاء تعليمات برمجية بلغة Python. كل خبير هو عنصر من عناصر نظام التعلم العميق الأكبر.
شبكة البوابة: هذه شبكة عصبية صغيرة تعمل كوحدة تحكم في حركة المرور أو جهاز توجيه. إنها تأخذ المدخلات وتحدد الخبير أو مجموعة الخبراء الأنسب للتعامل معها. تُخرج شبكة البوابة احتمالات لكل خبير، وبناءً على ذلك، فإنها تنشط بشكل انتقائي خبيرًا واحدًا أو عدد قليل من الخبراء لمعالجة المدخلات. غالبًا ما تسمى هذه التقنية الخاصة بتنشيط مجموعة فرعية فقط من الشبكة بالتنشيط المتفرق وهي مفهوم أساسي مفصل في الأوراق البحثية المؤثرة مثل ورقة Google "شبكات عصبية كبيرة بشكل شائن".
أثناء عملية التدريب، يتم تدريب كل من شبكات الخبراء وشبكة البوابة في وقت واحد باستخدام الانتشار الخلفي. لا يتعلم النظام كيفية حل المهمة داخل الخبراء فحسب، بل يتعلم أيضًا كيفية توجيه المدخلات بشكل فعال عبر شبكة البوابة.
غالبًا ما تتم مقارنة خليط الخبراء بـ تجميع النماذج، لكنهما يعملان على مبادئ مختلفة تمامًا.
أصبحت هياكل MoE بارزة بشكل خاص في توسيع نطاق النماذج الحديثة، وخاصة في معالجة اللغة الطبيعية.
يتضمن تطبيق نماذج MoE بفعالية تحديات مثل ضمان توازن التحميل عبر الخبراء (منع بعض الخبراء من الإفراط في الاستخدام أو نقصه)، وإدارة النفقات العامة للاتصال في بيئات التدريب الموزع (كما هو موضح في أطر عمل مثل PyTorch و TensorFlow)، وزيادة التعقيد في عملية التدريب. من الضروري أيضًا التفكير مليًا في خيارات نشر النموذج وإدارتها باستخدام منصات مثل Ultralytics HUB.