مسرد المصطلحات

مزيج من الخبراء (MoE)

اكتشف Mixture of Experts (MoE)، وهي بنية ذكاء اصطناعي متطورة تتيح نماذج فعالة وقابلة للتطوير في مجال البرمجة اللغوية العصبية والرؤية والروبوتات وغيرها.

مزيج من الخبراء (MoE) هي بنية شبكة عصبية (NN) تمكّن النماذج من التعلم بكفاءة أكبر من خلال تقسيم المشكلة بين نماذج فرعية متخصصة، تُعرف باسم "الخبراء". وبدلاً من نموذج واحد متجانس يعالج كل مدخل، تستخدم بنية MoE "شبكة بوابات" لتوجيه كل مدخل بشكل ديناميكي إلى الخبير (الخبراء) الأكثر صلة. هذا النهج مستوحى من الفكرة القائلة بأن فريقاً من المتخصصين، كل منهم بارع في مهمة محددة، يمكنه أن يحل المشاكل المعقدة بشكل جماعي أكثر فعالية من خبير واحد. يسمح هذا الحساب الشرطي لنماذج MoE بالتوسع في عدد هائل من المعلمات مع الحفاظ على التكلفة الحسابية للاستدلال قابلة للإدارة، حيث يتم استخدام جزء بسيط فقط من النموذج لأي مدخلات معينة.

كيف يعمل مزيج الخبراء

تتكون بنية وزارة التربية والتعليم من مكونين أساسيين:

  1. الشبكات الخبيرة: وهي عبارة عن شبكات عصبية متعددة أصغر حجماً، وغالباً ما تكون ذات بنيات متطابقة، يتم تدريبها لتصبح متخصصة في أجزاء مختلفة من البيانات. على سبيل المثال، في نموذج لمعالجة اللغات الطبيعية (NLP)، قد يتخصص أحد الخبراء في ترجمة اللغة الإنجليزية إلى الفرنسية، بينما يتخصص خبير آخر في توليد أكواد لغة بايثون. كل خبير هو مكون من نظام تعلم عميق أكبر.

  2. شبكة بوابات: وهي عبارة عن شبكة عصبية صغيرة تعمل كمراقب أو موجه لحركة المرور. فهي تأخذ المدخلات وتحدد الخبير أو مجموعة الخبراء الأنسب للتعامل معها. تقوم الشبكة البوابية بإخراج احتمالات لكل خبير، وبناءً على هذه الاحتمالات، تقوم الشبكة بتفعيل خبير واحد أو عدد قليل من الخبراء بشكل انتقائي لمعالجة المدخلات. غالبًا ما يُطلق على هذه التقنية المتمثلة في تنشيط مجموعة فرعية فقط من الشبكة اسم التنشيط المتناثر، وهي مفهوم أساسي مفصل في أوراق بحثية مؤثرة مثل"الشبكات العصبية الكبيرة جدًا" من Google.

أثناء عملية التدريب، يتم تدريب كل من الشبكات الخبيرة وشبكة البوابات في وقت واحد باستخدام الانتساب العكسي. لا يتعلم النظام ليس فقط كيفية حل المهمة داخل الخبراء ولكن أيضًا كيفية توجيه المدخلات بفعالية عبر شبكة البوابة، حيث يتعلم النظام كيفية حل المهمة داخل الخبراء.

وزارة التربية والتعليم مقابل المجموعة النموذجية

غالبًا ما تتم مقارنة خليط الخبراء بمجموعة النماذج، لكنهما يعملان على مبادئ مختلفة جوهريًا.

  • طرق المجموعة: في المجموعة القياسية، يتم تدريب عدة نماذج مختلفة بشكل مستقل (أو على مجموعات فرعية مختلفة من البيانات). وللاستدلال، تعالج جميع النماذج المدخلات، ويتم دمج مخرجاتها (على سبيل المثال، من خلال التصويت أو حساب المتوسط) للحصول على نتيجة نهائية. هذا يحسّن المتانة والدقة لكنه يزيد من التكلفة الحسابية بشكل كبير، حيث يجب تنفيذ كل نموذج في المجموعة.
  • خليط من الخبراء: في نموذج MoE، يكون جميع الخبراء جزءًا من نموذج واحد أكبر ويتم تدريبهم معًا. بالنسبة لأي مدخلات معينة، تختار الشبكة البوابية عدداً قليلاً فقط من الخبراء لتشغيلها. هذا يجعل الاستدلال أسرع بكثير وأكثر كفاءة من الناحية الحسابية من نموذج كثيف ذي حجم مكافئ أو خليط من الخبراء، حيث تظل غالبية معلمات النموذج غير مستخدمة لكل مهمة محددة.

التطبيقات الواقعية

أصبحت بنيات وزارة التربية والتعليم بارزة بشكل خاص في توسيع نطاق النماذج الحديثة، خاصةً في مجال البرمجة اللغوية العصبية.

  1. نماذج اللغات الكبيرة (LLMs): وزارة التربية هي التقنية الرئيسية وراء بعض أقوى نماذج اللغات الكبيرة. على سبيل المثال، تستخدم Mixtral's Mixtral 8x7B من Mistral AI وMystral's AI 8x7B وMystral 's Switch Transformers من Google، تقنية MoE لإنشاء نماذج بمئات المليارات أو حتى تريليونات من المعلمات. يعزز هذا النطاق الهائل من قدراتهما المعرفية والاستدلالية دون جعل الاستدلال باهظ التكلفة.
  2. الرؤية الحاسوبية: على الرغم من أن مفهوم MoE أكثر شيوعًا في الآليات المحلية القائمة على المحولات، إلا أن مفهوم MoE قابل للتطبيق أيضًا على الرؤية الحاسوبية. بالنسبة لمهمة تصنيف الصور المعقدة ذات الفئات المتنوعة للغاية، يمكن أن يكون لنموذج MoE خبراء متخصصون في تحديد الحيوانات والمركبات والمباني. ستقوم شبكة البوابة، أولاً، بتحليل الصورة وتفعيل الخبير المناسب، مما يؤدي إلى معالجة أكثر كفاءة. يمكن استكشاف هذا النهج في النماذج المتقدمة مثل Ultralytics YOLO11.

التحديات والاعتبارات

ينطوي تنفيذ نماذج MoE بفعالية على تحديات مثل ضمان الحمل المتوازن بين الخبراء (منع الإفراط في استخدام بعض الخبراء أو التقليل من استخدامهم)، وإدارة نفقات الاتصال الزائدة في بيئات التدريب الموزعة (كما هو واضح في أطر العمل مثل PyTorch و TensorFlow)، والتعقيد المتزايد في عملية التدريب. من الضروري أيضاً النظر بعناية في خيارات نشر النماذج وإدارتها باستخدام منصات مثل Ultralytics HUB.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون ونمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة