Glossaire

Mélange d'experts (MoE)

Découvrez Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant d'élaborer des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, etc.

Un mélange d'experts (MoE) est une architecture de réseau neuronal (NN) qui permet aux modèles d'apprendre plus efficacement en divisant un problème entre des sous-modèles spécialisés, appelés "experts". Au lieu d'un modèle unique et monolithique traitant chaque entrée, une architecture MoE utilise un "réseau d'accès" pour acheminer dynamiquement chaque entrée vers le(s) expert(s) le(s) plus pertinent(s). Cette approche s'inspire de l'idée qu'une équipe de spécialistes, chacun excellant dans une tâche spécifique, peut collectivement résoudre des problèmes complexes plus efficacement qu'un seul généraliste. Ce calcul conditionnel permet aux modèles MoE de s'adapter à un très grand nombre de paramètres tout en maintenant le coût de calcul de l'inférence à un niveau raisonnable, puisque seule une fraction du modèle est utilisée pour une entrée donnée.

Comment fonctionne le mélange d'experts

L'architecture des ministères de l'environnement se compose de deux éléments principaux :

  1. Réseaux experts: Il s'agit de plusieurs réseaux neuronaux plus petits, souvent dotés d'architectures identiques, qui sont formés pour devenir des spécialistes de différentes parties des données. Par exemple, dans un modèle de traitement du langage naturel (NLP), un expert peut se spécialiser dans la traduction de l'anglais au français, tandis qu'un autre devient compétent dans la génération de code Python. Chaque expert est un composant d'un système d'apprentissage profond plus vaste.

  2. Réseau de portes: Il s'agit d'un petit réseau neuronal qui agit comme un contrôleur de trafic ou un routeur. Il prend l'entrée et détermine quel expert ou combinaison d'experts est le mieux à même de la traiter. Le réseau de contrôle produit des probabilités pour chaque expert et, sur la base de ces probabilités, il active sélectivement un ou plusieurs experts pour traiter l'entrée. Cette technique consistant à n'activer qu'un sous-ensemble du réseau est souvent appelée activation éparse. Il s'agit d'un concept de base détaillé dans des articles influents tels que"Outrageously Large Neural Networks" (Réseaux neuronaux de grande taille) de Google.

Au cours du processus de formation, les réseaux d'experts et le réseau de contrôle sont formés simultanément à l'aide de la rétropropagation. Le système apprend non seulement à résoudre la tâche à l'aide des experts, mais aussi à acheminer efficacement les entrées par l'intermédiaire du réseau de contrôle.

Modèle d'ensemble vs. modèle d'ensemble

Le mélange d'experts est souvent comparé à l'assemblage de modèles, mais ils fonctionnent selon des principes fondamentalement différents.

  • Méthodes d'ensemble: Dans un ensemble standard, plusieurs modèles différents sont formés indépendamment (ou sur différents sous-ensembles de données). Pour l'inférence, tous les modèles traitent l'entrée et leurs sorties sont combinées (par exemple, par vote ou calcul de la moyenne) pour produire un résultat final. Cette méthode améliore la robustesse et la précision, mais augmente considérablement les coûts de calcul, car chaque modèle de l'ensemble doit être exécuté.
  • Mélange d'experts: Dans un mélange d'experts, tous les experts font partie d'un seul modèle plus vaste et sont formés ensemble. Pour toute entrée donnée, le réseau de contrôle ne sélectionne que quelques experts à exécuter. L'inférence est ainsi beaucoup plus rapide et plus efficace sur le plan informatique qu'un modèle dense de taille équivalente ou qu'un ensemble, car la majorité des paramètres du modèle ne sont pas utilisés pour chaque tâche spécifique.

Applications dans le monde réel

Les architectures MoE sont devenues particulièrement importantes pour la mise à l'échelle des modèles de pointe, en particulier dans le domaine du langage parlé et écrit.

  1. Grands modèles linguistiques (LLM): MoE est la technologie clé derrière certains des LLM les plus puissants. Par exemple, Mixtral 8x7B de Mistral AI et Switch Transformers de Google utilisent le MoE pour créer des modèles comportant des centaines de milliards, voire des trillions de paramètres. Cette échelle massive améliore leurs capacités de connaissance et de raisonnement sans rendre l'inférence excessivement coûteuse.
  2. Vision par ordinateur: Bien qu'il soit plus courant dans les LLM basés sur les transformateurs, le concept de MoE est également applicable à la vision par ordinateur (CV). Pour une tâche complexe de classification d'images avec des catégories très diverses, un modèle MoE pourrait avoir des experts spécialisés dans l'identification d'animaux, de véhicules et de bâtiments. Le réseau de contrôle analyserait d'abord l'image et activerait l'expert approprié, ce qui permettrait un traitement plus efficace. Cette approche pourrait être explorée dans des modèles avancés comme Ultralytics YOLO11.

Défis et considérations

La mise en œuvre efficace des modèles de MoE implique des défis tels que la garantie d'une charge équilibrée entre les experts (empêchant certains experts d'être sur- ou sous-utilisés), la gestion des frais généraux de communication dans les environnements de formation distribués (comme on le voit dans des cadres tels que PyTorch et TensorFlow), et la complexité accrue du processus de formation. Un examen attentif des options de déploiement et de gestion des modèles à l'aide de plateformes comme Ultralytics HUB est également nécessaire.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers