مسرد المصطلحات

خليط الخبراء (MoE)

اكتشف معمارية Mixture of Experts (MoE)، وهي طفرة في مجال الذكاء الاصطناعي تتيح نماذج قابلة للتطوير وفعالة لمعالجة اللغات الطبيعية (NLP)، والرؤية الحاسوبية، والروبوتات، وغيرها.

إن نموذج Mixture of Experts (MoE) عبارة عن بنية شبكة عصبية (NN) تتيح للنماذج التعلم بكفاءة أكبر عن طريق تقسيم المشكلة بين النماذج الفرعية المتخصصة، والمعروفة باسم "الخبراء". بدلاً من قيام نموذج واحد ومتجانس بمعالجة كل إدخال، تستخدم بنية MoE "شبكة بوابات" لتوجيه كل إدخال ديناميكيًا إلى الخبير (الخبراء) الأكثر صلة. هذا النهج مستوحى من فكرة أن فريقًا من المتخصصين، يتفوق كل منهم في مهمة محددة، يمكنهم بشكل جماعي حل المشكلات المعقدة بفعالية أكبر من متخصص عام واحد. يسمح هذا الحساب الشرطي لنماذج MoE بالتوسع إلى عدد هائل من المعلمات مع الحفاظ على التكلفة الحسابية لـ الاستدلال قابلة للإدارة، حيث يتم استخدام جزء صغير فقط من النموذج لأي إدخال معين.

كيفية عمل خليط الخبراء

يتكون تصميم MoE من عنصرين أساسيين:

شبكات الخبراء: هي عبارة عن شبكات عصبية أصغر متعددة، غالبًا ما تكون ذات بنى متطابقة، يتم تدريبها لتصبح متخصصين في أجزاء مختلفة من البيانات. على سبيل المثال، في نموذج لمعالجة اللغة الطبيعية (NLP)، قد يتخصص أحد الخبراء في ترجمة اللغة الإنجليزية إلى الفرنسية، بينما يصبح خبير آخر في إنشاء تعليمات برمجية بلغة Python. كل خبير هو عنصر من عناصر نظام التعلم العميق الأكبر.
شبكة البوابة: هذه شبكة عصبية صغيرة تعمل كوحدة تحكم في حركة المرور أو جهاز توجيه. إنها تأخذ المدخلات وتحدد الخبير أو مجموعة الخبراء الأنسب للتعامل معها. تُخرج شبكة البوابة احتمالات لكل خبير، وبناءً على ذلك، فإنها تنشط بشكل انتقائي خبيرًا واحدًا أو عدد قليل من الخبراء لمعالجة المدخلات. غالبًا ما تسمى هذه التقنية الخاصة بتنشيط مجموعة فرعية فقط من الشبكة بالتنشيط المتفرق وهي مفهوم أساسي مفصل في الأوراق البحثية المؤثرة مثل ورقة Google "شبكات عصبية كبيرة بشكل شائن".

أثناء عملية التدريب، يتم تدريب كل من شبكات الخبراء وشبكة البوابة في وقت واحد باستخدام الانتشار الخلفي. لا يتعلم النظام كيفية حل المهمة داخل الخبراء فحسب، بل يتعلم أيضًا كيفية توجيه المدخلات بشكل فعال عبر شبكة البوابة.

MoE مقابل تجميع النماذج

غالبًا ما تتم مقارنة خليط الخبراء بـ تجميع النماذج، لكنهما يعملان على مبادئ مختلفة تمامًا.

Ensemble Methods: في التجميع القياسي، يتم تدريب نماذج مختلفة متعددة بشكل مستقل (أو على مجموعات فرعية مختلفة من البيانات). للاستدلال، تعالج جميع النماذج المدخلات، ويتم دمج مخرجاتها (على سبيل المثال، من خلال التصويت أو المتوسط) لإنتاج نتيجة نهائية. هذا يحسن المتانة و الدقة ولكنه يزيد بشكل كبير من التكلفة الحسابية، حيث يجب تنفيذ كل نموذج في المجموعة.
خليط الخبراء: في نموذج خليط الخبراء (MoE)، يكون جميع الخبراء جزءًا من نموذج واحد أكبر ويتم تدريبهم معًا. لأي إدخال معين، تحدد شبكة البوابات عدد قليل فقط من الخبراء لتشغيلهم. هذا يجعل الاستدلال أسرع بكثير وأكثر كفاءة من حيث الحساب من نموذج كثيف ذي حجم مكافئ أو مجموعة، حيث تظل غالبية معلمات النموذج غير مستخدمة لكل مهمة محددة.

تطبيقات واقعية

أصبحت هياكل MoE بارزة بشكل خاص في توسيع نطاق النماذج الحديثة، وخاصة في معالجة اللغة الطبيعية.

نماذج اللغة الكبيرة (LLMs): MoE هي التقنية الرئيسية وراء بعض نماذج اللغة الكبيرة (LLMs) الأكثر قوة. على سبيل المثال، يستخدم Mixtral 8x7B من Mistral AI و Switch Transformers من Google تقنية MoE لإنشاء نماذج بمئات المليارات أو حتى تريليونات المعلمات. هذا الحجم الهائل يعزز معرفتهم وقدراتهم المنطقية دون جعل الاستدلال باهظ التكلفة.
الرؤية الحاسوبية: على الرغم من أن مفهوم MoE أكثر شيوعًا في محولات LLMs، إلا أنه ينطبق أيضًا على الرؤية الحاسوبية (CV). بالنسبة إلى مهمة تصنيف صور معقدة ذات فئات متنوعة للغاية، يمكن أن يكون لدى نموذج MoE خبراء متخصصون في تحديد الحيوانات والمركبات والمباني. ستقوم شبكة البوابة أولاً بتحليل الصورة وتفعيل الخبير المناسب، مما يؤدي إلى معالجة أكثر كفاءة. يمكن استكشاف هذا النهج في النماذج المتقدمة مثل Ultralytics YOLO11.

التحديات والاعتبارات

يتضمن تطبيق نماذج MoE بفعالية تحديات مثل ضمان توازن التحميل عبر الخبراء (منع بعض الخبراء من الإفراط في الاستخدام أو نقصه)، وإدارة النفقات العامة للاتصال في بيئات التدريب الموزع (كما هو موضح في أطر عمل مثل PyTorch و TensorFlow)، وزيادة التعقيد في عملية التدريب. من الضروري أيضًا التفكير مليًا في خيارات نشر النموذج وإدارتها باستخدام منصات مثل Ultralytics HUB.

خليط الخبراء (MoE)

تدريب نماذج Ultralytics YOLO لتبسيط سير العمل عبر الصناعات

حل ترخيص مرن للمؤسسات لدعم ابتكاراتك

تدريب نماذج الذكاء الاصطناعي في ثوانٍ باستخدام Ultralytics YOLO

كيفية عمل خليط الخبراء

MoE مقابل تجميع النماذج

تطبيقات واقعية

التحديات والاعتبارات

اقرأ المزيد في هذه الفئة

من البتات إلى الكيوبتات: كيف يعمل التحسين الكمي على إعادة تشكيل الذكاء الاصطناعي

دليل سريع للمبتدئين حول كيفية تدريب نموذج الذكاء الاصطناعي

من دبي برؤى ثاقبة: أهم ما جاء في قمة مجموعة الحوكمة العالمية لمنطقة الشرق الأوسط وشمال أفريقيا - T 2025

انضم إلى مجتمع Ultralytics