Mixture of Experts (MoE)
Découvrez Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant de créer des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, et bien plus encore.
Le mélange d'experts (MoE) est une architecture de réseau neuronal (NN)
réseau neuronal (NN) spécialisé, conçu pour
d'augmenter efficacement la capacité du modèle sans augmentation proportionnelle des coûts de calcul. Contrairement aux modèles traditionnels
traditionnels "denses" où chaque paramètre est actif pour chaque entrée, un modèle MoE utilise une technique appelée "calcul conditionnel".
calcul conditionnel. Cela permet au système de n'activer dynamiquement qu'un petit sous-ensemble de ses paramètres totaux, appelés "experts".
paramètres - connus sous le nom d'"experts" - en fonction des exigences spécifiques des données d'entrée. En tirant parti de cette
activation éparse, les chercheurs peuvent former des systèmes massifs, tels que les
les grands modèles de langage (LLM), qui possèdent des
de paramètres tout en conservant la latence et la vitesse d'inférence d'un
la latence et la vitesse d'inférence d'un modèle beaucoup plus petit.
beaucoup plus petits.
Composants essentiels de l'architecture des ministères de l'environnement
Le cadre MoE remplace les couches denses standard par une couche MoE clairsemée, qui se compose de deux éléments principaux
qui travaillent en tandem pour traiter les informations :
-
Réseaux d'experts: Il s'agit de
sous-réseaux indépendants, souvent de simples
souvent des réseaux simples de type "Feed-Forward" (FFN), spécialisés
spécialisés dans le traitement de différents types de données. Par exemple, dans un réseau de
traitement du langage naturel (NLP)
un expert peut se concentrer sur la structure grammaticale tandis qu'un autre se spécialise dans les expressions idiomatiques.
-
Réseau de portes (routeur) : Le routeur agit comme un contrôleur de trafic. Pour chaque jeton d'entrée ou
il calcule une distribution de probabilités au moyen d'une fonction
fonction softmax pour déterminer quels experts sont les mieux
pour traiter cette entrée spécifique. Il achemine généralement les données vers les experts "Top-K" (généralement 1 ou
2), ce qui garantit que la majeure partie du modèle reste inactive et permet d'économiser les ressources informatiques.
MoE vs. Ensembles modèles
Bien que les deux architectures impliquent de multiples sous-modèles, il est crucial de distinguer
mélange d'experts d'un
ensemble de modèles.
-
Ensembles de modèles : Dans les méthodes telles que
comme le bagging ou le boosting, plusieurs modèles distincts traitent la même entrée de manière indépendante, et leurs prédictions sont agrégées pour améliorer la qualité du modèle.
la même entrée de manière indépendante, et leurs prédictions sont agrégées afin d'améliorer
l 'exactitude. Cette approche augmente le coût de calcul de manière linéaire avec le nombre de modèles, car chaque modèle s'exécute pour chaque inférence.
linéairement avec le nombre de modèles, car chaque modèle s'exécute pour chaque inférence.
-
Mélange d'experts : Un mélange d'experts est un modèle unique et unifié dans lequel les différentes entrées suivent des chemins différents à travers le réseau.
à travers le réseau. Seuls les experts sélectionnés sont exécutés, ce qui permet au modèle d'être extrêmement vaste en termes de paramètres, mais peu complexe en termes de calcul.
de paramètres, mais peu complexe en termes de calcul. Cela permet une
que les ensembles denses ne peuvent pas égaler.
Applications concrètes
L'architecture MoE est devenue la pierre angulaire de l'IA moderne à haute performance, en particulier dans les scénarios nécessitant
une grande capacité de rétention des connaissances et des capacités multi-tâches.
-
Génération de langues avancées : Les principaux modèles de fondation, tels que
Mixtral 8x7B de Mistral AI et Google
Switch Transformers de Google,
utilisent le MoE pour gérer diverses tâches linguistiques. En acheminant les jetons vers des experts spécialisés, ces modèles peuvent maîtriser plusieurs langues et syntaxes de codage.
simultanément plusieurs langues et syntaxes de codage sans avoir à supporter les coûts de formation prohibitifs des modèles denses de taille équivalente.
de taille équivalente.
-
Vision par ordinateur évolutive : Dans le domaine de la
vision par ordinateur (CV), MoE est utilisé pour créer des
polyvalents pour des tâches telles que la
détection d'objets et la classification d'images. Un modèle de vision basé sur le
modèle de vision basé sur le MoE, tel que le Vision MoE (V-MoE) de Google, permet de dédier des experts spécifiques à la reconnaissance de caractéristiques visuelles distinctes, telles que les textures par rapport aux formes.
experts spécifiques pour reconnaître des caractéristiques visuelles distinctes (textures ou formes, par exemple), ce qui permet d'améliorer les performances sur des ensembles de données massifs tels que les images, les photos, les vidéos, etc.
sur des ensembles de données massifs tels que ImageNet. Les modèles efficaces actuels
comme YOLO11 s'appuient sur des architectures denses optimisées, mais
futurs projets de R&D comme YOLO26 explorent des stratégies architecturales
stratégies architecturales avancées pour maximiser le compromis entre la taille et la vitesse.
Exemple de logique de routage
Il est essentiel de comprendre le mécanisme de routage pour saisir le fonctionnement de la MoE. Les éléments suivants
PyTorch suivant montre un mécanisme de routage simplifié
qui sélectionne les 2 meilleurs experts pour un lot d'entrée donné.
import torch
import torch.nn as nn
# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128
# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim) # Batch of 4 inputs
# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)
# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)
print(f"Selected Expert Indices:\n{indices}")
Les défis de la formation
Malgré leur efficacité, les modèles MoE introduisent de la complexité dans le processus de formation.
processus de formation. L'un des principaux défis est l'équilibrage de la charge.
l'équilibrage de la charge; le réseau d'accès peut converger vers un état où il achemine tout vers quelques experts "populaires", laissant les autres sans formation.
quelques experts "populaires", laissant les autres sous-entraînés. Pour éviter cela, les chercheurs appliquent des
fonctions de perte auxiliaires qui encouragent une distribution
uniforme entre tous les experts. En outre, la mise en œuvre du MoE nécessite une infrastructure de formation
sophistiquée pour gérer la communication entre les
la communication entre les experts répartis sur différents
GPU. Des bibliothèques telles que
Microsoft DeepSpeed et
TensorFlow Mesh ont été développées spécifiquement pour gérer ces
problèmes de parallélisation.