Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

خليط الخبراء (MoE)

اكتشف معمارية Mixture of Experts (MoE)، وهي طفرة في مجال الذكاء الاصطناعي تتيح نماذج قابلة للتطوير وفعالة لمعالجة اللغات الطبيعية (NLP)، والرؤية الحاسوبية، والروبوتات، وغيرها.

مزيج من الخبراء (MoE) هو عبارة عن بنية متخصصة شبكة عصبونية متخصصة (NN) مصممة لتوسيع نطاق لتوسيع سعة النموذج بكفاءة دون زيادة تناسبية في التكلفة الحسابية. على عكس النماذج "الكثيفة" التقليدية حيث تكون كل معلمة نشطة لكل مدخل، يستخدم نموذج MoE تقنية تسمى الحوسبة الشرطية. وهذا يسمح للنظام بتفعيل مجموعة فرعية صغيرة فقط من إجمالي المعلمات - المعروفة باسم "الخبراء" - بناءً على المتطلبات المحددة لبيانات المدخلات. من خلال الاستفادة من هذا التفعيل المتناثر، يمكن للباحثين تدريب أنظمة ضخمة، مثل نماذج اللغة الكبيرة (LLMs)، التي تمتلك تريليونات من المعلمات مع الحفاظ على على زمن استنتاج وسرعة نموذج أصغر بكثير. أصغر بكثير.

المكونات الأساسية لبنية وزارة التربية والتعليم

يستبدل إطار عمل MoE الطبقات الكثيفة القياسية بطبقة MoE متناثرة، والتي تتكون من عنصرين أساسيين يعملان جنبًا إلى جنب لمعالجة المعلومات:

  • شبكات الخبراء: هذه هي شبكات فرعية مستقلة، غالبًا ما تكون بسيطة شبكات التغذية الأمامية البسيطة (FFNs)، والتي تتخصص في في التعامل مع أنواع مختلفة من أنماط البيانات. على سبيل المثال، في معالجة اللغة الطبيعية (NLP) قد يركز أحد الخبراء على البنية النحوية بينما يتخصص خبير آخر في التعبيرات الاصطلاحية.
  • شبكة البوابات (جهاز التوجيه): يعمل جهاز التوجيه كوحدة تحكم في حركة المرور. لكل رمز إدخال أو صورة رمزية فإنه يحسب توزيع الاحتمالات من خلال دالة softmax لتحديد الخبراء الأنسب الأنسب لمعالجة تلك المدخلات المحددة. يقوم عادةً بتوجيه البيانات إلى خبراء "Top-K" (عادةً 1 أو 2)، مما يضمن بقاء الغالبية العظمى من النموذج غير نشط، وبالتالي الحفاظ على الموارد الحاسوبية.

وزارة التربية والتعليم مقابل المجموعات النموذجية

في حين أن كلتا البنيتين تتضمنان نماذج فرعية متعددة، إلا أنه من الضروري التمييز بين خليط الخبراء عن مجموعة النماذج.

  • مجموعات النماذج: في طرق مثل التجميع أو التعزيز، تقوم عدة نماذج مختلفة بمعالجة نفس المدخلات بشكل مستقل، ويتم تجميع تنبؤاتهم لتحسين الدقة. يزيد هذا النهج من التكلفة الحسابية خطيًا مع عدد النماذج، حيث يتم تشغيل كل نموذج لكل استدلال.
  • مزيج من الخبراء: مزيج الخبراء هو نموذج واحد موحد حيث تتبع المدخلات المختلفة مسارات مختلفة عبر الشبكة. يتم تنفيذ الخبراء المختارين فقط، مما يسمح للنموذج أن يكون كبيرًا للغاية في عدد المعلمات ولكن متناثرة في الحساب. يتيح هذا إمكانية عالية قابلية توسع عالية لا يمكن للمجموعات الكثيفة أن تضاهيها.

تطبيقات واقعية

أصبحت بنية MoE حجر الزاوية للذكاء الاصطناعي الحديث عالي الأداء، خاصةً في السيناريوهات التي تتطلب قدرة هائلة على الاحتفاظ بالمعرفة وقدرات متعددة المهام.

  1. توليد اللغة المتقدمة: نماذج الأساس البارزة، مثل Mixtral's Mixtral 8x7B من ميسترال للذكاء الاصطناعي و محولات التبديل, توظيف MoE للتعامل مع المهام اللغوية المتنوعة. من خلال توجيه الرموز إلى خبراء متخصصين، يمكن لهذه النماذج إتقان لغات متعددة وتراكيب ترميز متعددة في وقت واحد دون تكاليف التدريب الباهظة للنماذج الكثيفة ذات ذات الحجم المكافئ.
  2. الرؤية الحاسوبية القابلة للتطوير: في مجال رؤية الحاسوب (CV)، تُستخدم MoE لإنشاء عمود فقري متعدد الاستخدامات لمهام مثل اكتشاف الأجسام وتصنيف الصور. نموذج رؤية يمكن لنموذج الرؤية المستند إلى MoE، مثل نموذج الرؤية المرئي من Google (V-MoE)، أن تكريس خبراء محددين للتعرف على ميزات بصرية مميزة - مثل القوام مقابل الأشكال - مما يحسن الأداء على مجموعات البيانات الضخمة مثل ImageNet. النماذج الفعالة الحالية مثل YOLO11 تعتمد على البنى الكثيفة المحسنة، ولكن مشاريع البحث والتطوير المستقبلية مثل YOLO26 تستكشف استراتيجيات معمارية متقدمة المعمارية المتقدمة لتعظيم المفاضلة بين الحجم والسرعة.

مثال على منطق التوجيه

إن فهم آلية التوجيه هو المفتاح لفهم كيفية عمل وزارة التربية والتعليم. فيما يلي PyTorch مقتطفًا يوضّح آلية توجيه مبسّطة التي تختار أفضل خبيرين لدفعة مُدخَلات مُعيَّنة.

import torch
import torch.nn as nn

# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128

# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim)  # Batch of 4 inputs

# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)

# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)

print(f"Selected Expert Indices:\n{indices}")

التحديات في التدريب

على الرغم من كفاءتها، فإن نماذج وزارة التربية والتعليم تُدخل التعقيد في عملية التدريب. التحدي الأساسي هو موازنة الأحمال؛ فقد تتقارب شبكة البوابات إلى حالة تقوم فيها بتوجيه كل شيء إلى عدد قليل من الخبراء "المشهورين"، تاركةً الآخرين غير مدربين. ولمنع ذلك، يطبق الباحثون دالات خسارة مساعدة مساعدة تشجع التوزيع المنتظم عبر جميع الخبراء. بالإضافة إلى ذلك، يتطلب تطبيق MoE بنية تحتية متطورة بنية تحتية تدريبية موزعة متطورة لإدارة التواصل بين الخبراء المنقسمين عبر وحدات معالجة الرسومات المختلفة. مكتبات مثل Microsoft DeepSpeed و تم تطوير شبكةTensorFlow Mesh خصيصًا للتعامل مع هذه عقبات التوازي هذه.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن