Découvrez Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant d'élaborer des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, etc.
Un mélange d'experts (MoE) est une architecture de réseau neuronal (NN) qui permet aux modèles d'apprendre plus efficacement en divisant un problème entre des sous-modèles spécialisés, appelés "experts". Au lieu d'un modèle unique et monolithique traitant chaque entrée, une architecture MoE utilise un "réseau d'accès" pour acheminer dynamiquement chaque entrée vers le(s) expert(s) le(s) plus pertinent(s). Cette approche s'inspire de l'idée qu'une équipe de spécialistes, chacun excellant dans une tâche spécifique, peut collectivement résoudre des problèmes complexes plus efficacement qu'un seul généraliste. Ce calcul conditionnel permet aux modèles MoE de s'adapter à un très grand nombre de paramètres tout en maintenant le coût de calcul de l'inférence à un niveau raisonnable, puisque seule une fraction du modèle est utilisée pour une entrée donnée.
L'architecture des ministères de l'environnement se compose de deux éléments principaux :
Réseaux experts: Il s'agit de plusieurs réseaux neuronaux plus petits, souvent dotés d'architectures identiques, qui sont formés pour devenir des spécialistes de différentes parties des données. Par exemple, dans un modèle de traitement du langage naturel (NLP), un expert peut se spécialiser dans la traduction de l'anglais au français, tandis qu'un autre devient compétent dans la génération de code Python. Chaque expert est un composant d'un système d'apprentissage profond plus vaste.
Réseau de portes: Il s'agit d'un petit réseau neuronal qui agit comme un contrôleur de trafic ou un routeur. Il prend l'entrée et détermine quel expert ou combinaison d'experts est le mieux à même de la traiter. Le réseau de contrôle produit des probabilités pour chaque expert et, sur la base de ces probabilités, il active sélectivement un ou plusieurs experts pour traiter l'entrée. Cette technique consistant à n'activer qu'un sous-ensemble du réseau est souvent appelée activation éparse. Il s'agit d'un concept de base détaillé dans des articles influents tels que"Outrageously Large Neural Networks" (Réseaux neuronaux de grande taille) de Google.
Au cours du processus de formation, les réseaux d'experts et le réseau de contrôle sont formés simultanément à l'aide de la rétropropagation. Le système apprend non seulement à résoudre la tâche à l'aide des experts, mais aussi à acheminer efficacement les entrées par l'intermédiaire du réseau de contrôle.
Le mélange d'experts est souvent comparé à l'assemblage de modèles, mais ils fonctionnent selon des principes fondamentalement différents.
Les architectures MoE sont devenues particulièrement importantes pour la mise à l'échelle des modèles de pointe, en particulier dans le domaine du langage parlé et écrit.
La mise en œuvre efficace des modèles de MoE implique des défis tels que la garantie d'une charge équilibrée entre les experts (empêchant certains experts d'être sur- ou sous-utilisés), la gestion des frais généraux de communication dans les environnements de formation distribués (comme on le voit dans des cadres tels que PyTorch et TensorFlow), et la complexité accrue du processus de formation. Un examen attentif des options de déploiement et de gestion des modèles à l'aide de plateformes comme Ultralytics HUB est également nécessaire.