مسرد المصطلحات

مزيج من الخبراء (MoE)

اكتشف Mixture of Experts (MoE)، وهي بنية ذكاء اصطناعي متطورة تتيح نماذج فعالة وقابلة للتطوير في مجال البرمجة اللغوية العصبية والرؤية والروبوتات وغيرها.

تدريب YOLO النماذج
ببساطة مع Ultralytics HUB

التعرف على المزيد

مزيج الخبراء (MoE) هي تقنية تعلم آلي (ML) تعتمد على مبدأ "فرّق تسد". فبدلاً من استخدام نموذج واحد كبير متجانس واحد للتعامل مع جميع أنواع البيانات أو المهام، تستخدم بنية MoE نماذج فرعية متعددة أصغر ومتخصصة تسمى "الخبراء". تحدد آلية البوابات أي خبير (خبراء) هو الأنسب لمعالجة مدخلات معينة، وتفعيل الخبراء المختارين فقط. يسمح هذا النهج للنماذج بالتوسع بشكل كبير من حيث عدد المعلمات مع الحفاظ على التكلفة الحسابية قابلة للإدارة أثناء الاستدلال، حيث يتم استخدام جزء بسيط فقط من إجمالي معلمات النموذج لأي مدخلات محددة.

كيف يعمل مزيج الخبراء

يتكون نموذج وزارة التربية والتعليم عادةً من مكونين رئيسيين:

  1. الشبكات الخبيرة: وهي عبارة عن شبكات عصبية متعددة (NNs)، غالباً ما تكون بنفس البنية أو بنية متشابهة، يتم تدريب كل منها على إتقان التعامل مع أنواع محددة من البيانات أو المهام الفرعية ضمن مساحة مشكلة أكبر. على سبيل المثال، في معالجة اللغة الطبيعية (NLP)، قد يتخصص خبراء مختلفون في جوانب مختلفة من اللغة أو مجالات المعرفة.
  2. الشبكة البوابية (الموجه): هذه شبكة عصبية أخرى، عادةً ما تكون أصغر وأسرع، تقوم بتحليل بيانات المدخلات وتقرر أي خبير (خبراء) يجب أن يعالجها. وتقوم بإخراج أوزان تشير إلى أهمية أو مساهمة كل خبير في المدخلات المعطاة. في العديد من التطبيقات الحديثة، لا سيما نماذج MoE المتناثرة، تختار الشبكة البوابية عددًا صغيرًا فقط (على سبيل المثال، أعلى-ك) من الخبراء لتفعيلها.

غالبًا ما يكون الإخراج النهائي لطبقة التنشيط الانتقائي مزيجًا مرجحًا من مخرجات الخبراء المنشطين، استنادًا إلى الأوزان التي توفرها شبكة التنشيط. هذا التنشيط الانتقائي، أو "التنشيط المتناثر"، هو مفتاح مكاسب الكفاءة التي توفرها شبكة التفعيل الانتقائي.

فوائد وزارة التربية والتعليم

تقدم بنيات MoE العديد من المزايا المهمة، خاصةً للنماذج الكبيرة جدًا:

  • الكفاءة الحسابية: من خلال تنشيط مجموعة فرعية فقط من الخبراء لكل رمز إدخال أو نقطة بيانات، يمكن لنماذج MoE أن تقلل بشكل كبير من الحمل الحسابي(FLOPs) مقارنةً بالنماذج الكثيفة ذات الحجم المماثل حيث يتم استخدام جميع المعلمات لكل عملية حسابية. يؤدي هذا إلى تدريب أسرع وزمن استنتاج أقل.
  • قابلية التوسع: تمكّن وزارة التربية من إنشاء نماذج بأعداد كبيرة للغاية من المعلمات (تريليونات في بعض الحالات) دون زيادة متناسبة في التكلفة الحسابية لكل استدلال. وهذا أمر بالغ الأهمية لدفع حدود التعلم العميق (DL). استكشف مفاهيم قابلية توسع النماذج.
  • الأداء: يتيح التخصص للخبراء أن يصبحوا على درجة عالية من الكفاءة في مجالاتهم الخاصة، مما قد يؤدي إلى دقة وأداء أفضل للنموذج بشكل عام في المهام المعقدة مقارنةً بنموذج واحد كثيف. غالبًا ما يتطلب التدريب الفعال ضبطًا دقيقًا للمعامل الفائق.

وزارة التربية والتعليم مقابل المفاهيم ذات الصلة

من المهم التفريق بين وزارة التربية والتعليم والتقنيات الأخرى:

  • طرق التجميع: في حين أن كلاهما يستخدم نماذج متعددة، تقوم المجموعات عادةً بتدريب عدة نماذج مستقلة (غالبًا ما تكون كثيفة) وتجمع تنبؤاتها (على سبيل المثال، عن طريق حساب المتوسط). عادةً ما تعالج جميع النماذج في المجموعة كل المدخلات. على النقيض من ذلك، تتضمن وزارة التربية والتعليم أجزاء متخصصة ضمن نموذج واحد أكبر، ويتم تفعيل مجموعة فرعية فقط لكل مدخل.
  • النماذج الكثيفة: الشبكات العصبية التقليدية، بما في ذلك المحولات القياسية والشبكات العصبية التلافيفية (CNNs) مثل تلك المستخدمة في Ultralytics YOLO غالبًا ما تكون "كثيفة". وهذا يعني أن معظم أو جميع المعلمات(أوزان النموذج) تشارك في معالجة كل مدخلات. تقدم MoE التباعد لتقليل هذا العبء الحسابي.

التطبيقات الواقعية

شهدت وزارة التربية والتعليم اعتماداً كبيراً، خاصة في النماذج الكبيرة الحديثة:

  1. نماذج اللغات الكبيرة (LLMs): هذا هو مجال التطبيق الأبرز. تدمج نماذج مثل GShard و Switch Transformers منGoogle بالإضافة إلى النماذج مفتوحة المصدر مثل سلسلة Mixtral AI's Mixtral من Mistral AI، طبقات MoE ضمن بنيات المحولات الخاصة بها. وهذا يسمح لها بتحقيق أداءٍ عالٍ مع سرعات استنتاج أسرع مقارنةً بالنماذج ذات الكثافة الكبيرة المماثلة. تتفوق هذه النماذج في مهام مثل توليد النصوص والإجابة على الأسئلة.
  2. الرؤية الحاسوبية (CV): على الرغم من أنها أقل شيوعًا مما هي عليه في البرمجة اللغوية العصبية، إلا أنه يجري استكشافها في نماذج الرؤية. تشير الأبحاث إلى فوائد محتملة لمهام مثل تصنيف الصور واكتشاف الأجسام من خلال وجود خبراء متخصصين في التعرف على السمات البصرية المختلفة (مثل القوام والأشكال وفئات أجسام محددة) أو التعامل مع ظروف الصور المختلفة. يتناقض هذا مع نماذج الرؤية الكثيفة المحسّنة للغاية مثل YOLO11التي تحقق الكفاءة من خلال التصميم المعماري بدلاً من التفعيل المتناثر. تُعد محولات الرؤية (ViTs) مجالاً آخر يمكن تطبيق وزارة التربية والتعليم فيه. يمكنك إدارة نماذج الرؤية وتدريبها باستخدام منصات مثل Ultralytics HUB.

التحديات والاعتبارات

ينطوي تنفيذ نماذج وزارة التربية والتعليم وتدريبها بفعالية على تحديات مثل ضمان الحمل المتوازن بين الخبراء (منع استخدام بعض الخبراء بشكل مفرط أو غير مستغل)، وإدارة نفقات الاتصال الزائدة في بيئات التدريب الموزعة (كما هو موضح في أطر العمل مثل PyTorch و TensorFlow)، والتعقيد المتزايد في عملية التدريب. من الضروري أيضًا النظر بعناية في خيارات نشر النموذج.

قراءة الكل