Glossaire

Mélange d'experts (MoE)

Découvre Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, et bien plus encore.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le mélange d'experts (MoE) est une technique d'apprentissage automatique (ML) basée sur le principe "diviser pour régner". Au lieu d'utiliser un seul grand modèle monolithique pour traiter tous les types de données ou de tâches, une architecture MoE emploie plusieurs sous-modèles plus petits et spécialisés appelés "experts". Un mécanisme de contrôle détermine quel(s) expert(s) est (sont) le(s) plus apte(s) à traiter une entrée donnée, et n'active(nt) que les experts sélectionnés. Cette approche permet aux modèles d'évoluer de manière significative en termes de nombre de paramètres tout en gardant un coût de calcul gérable pendant l'inférence, car seule une fraction des paramètres totaux du modèle est utilisée pour une entrée spécifique.

Comment fonctionne le mélange d'experts

Un modèle de MdE se compose généralement de deux éléments principaux :

  1. Réseaux experts : Il s'agit de plusieurs réseaux neuronaux (RN), souvent dotés d'une architecture identique ou similaire, chacun étant formé pour devenir compétent dans le traitement de types de données ou de sous-tâches spécifiques au sein d'un espace de problèmes plus vaste. Par exemple, dans le traitement du langage naturel (NLP), différents experts peuvent se spécialiser dans différents aspects du langage ou des domaines de connaissances.
  2. Réseau de portes (Router) : Il s'agit d'un autre réseau neuronal, généralement plus petit et plus rapide, qui analyse les données d'entrée et décide quel(s) expert(s) doit(vent) les traiter. Il émet des poids indiquant la pertinence ou la contribution de chaque expert pour l'entrée donnée. Dans de nombreuses implémentations modernes, en particulier dans les modèles de MoE clairsemés, le réseau de contrôle ne sélectionne qu'un petit nombre (par exemple, top-k) d'experts à activer.

La sortie finale de la couche MoE est souvent une combinaison pondérée des sorties des experts activés, en fonction des poids fournis par le réseau de validation. Cette activation sélective, ou "activation éparse", est la clé des gains d'efficacité offerts par le MoE.

Les avantages du MdE

Les architectures MoE offrent plusieurs avantages significatifs, en particulier pour les très grands modèles :

  • Efficacité informatique : En activant seulement un sous-ensemble d'experts pour chaque jeton d'entrée ou point de données, les modèles MoE peuvent réduire considérablement la charge de calcul(FLOP) par rapport aux modèles denses de taille similaire où tous les paramètres sont utilisés pour chaque calcul. Cela permet une formation plus rapide et une latence d'inférence plus faible.
  • Évolutivité : MoE permet de créer des modèles avec un nombre extrêmement important de paramètres (des trillions dans certains cas) sans augmentation proportionnelle du coût de calcul par inférence. Cet aspect est crucial pour repousser les limites de l'apprentissage profond (DL). Explore les concepts d'évolutivité des modèles.
  • Performance : La spécialisation permet aux experts de devenir très compétents dans leurs domaines respectifs, ce qui peut conduire à une meilleure précision globale du modèle et à de meilleures performances sur des tâches complexes par rapport à un modèle unique et dense. Une formation efficace nécessite souvent un réglage minutieux des hyperparamètres.

MoE et concepts connexes

Il est important de différencier le MoE des autres techniques :

  • Méthodes d'ensemble: Bien qu'elles utilisent toutes deux plusieurs modèles, les ensembles forment généralement plusieurs modèles indépendants (souvent denses) et combinent leurs prédictions (par exemple, en établissant une moyenne). Tous les modèles d'un ensemble traitent généralement chaque entrée. En revanche, la méthode MoE implique des parties spécialisées au sein d' un seul modèle plus large, et seul un sous-ensemble est activé par entrée.
  • Modèles denses : Les réseaux neuronaux traditionnels, y compris les transformateurs standard et les réseaux neuronaux convolutifs (CNN) tels que ceux utilisés par Ultralytics YOLO sont souvent "denses". Cela signifie que la plupart ou tous les paramètres(poids du modèle) sont impliqués dans le traitement de chaque entrée. MoE introduit de l'éparpillement pour réduire cette charge de calcul.

Applications dans le monde réel

MoE a vu une adoption significative, en particulier dans les grands modèles de pointe :

  1. Grands modèles linguistiques (LLM): Il s'agit du domaine d'application le plus important. Des modèles comme les transformateurs GShard et Switch deGoogle, ainsi que des modèles open-source comme la série Mixtral de Mistral AI, intègrent des couches MoE dans leurs architectures Transformer. Cela leur permet d'atteindre des performances élevées avec des vitesses d'inférence plus rapides par rapport à des modèles denses de taille équivalente. Ces modèles excellent dans des tâches telles que la génération de texte et la réponse aux questions.
  2. Vision par ordinateur (CV): Bien que moins courant que dans le NLP, le MoE est exploré dans les modèles de vision. La recherche suggère des avantages potentiels pour des tâches telles que la classification d'images et la détection d'objets en demandant à des experts de se spécialiser dans la reconnaissance de différentes caractéristiques visuelles (par exemple, les textures, les formes, les catégories d'objets spécifiques) ou de gérer différentes conditions d'image. Cela contraste avec les modèles de vision denses et hautement optimisés tels que YOLO11qui atteignent l'efficacité grâce à la conception architecturale plutôt qu'à l'activation éparse. Les transformateurs de vision (ViT) sont un autre domaine où les MoE pourraient être appliqués. Tu peux gérer et former des modèles de vision à l'aide de plateformes comme Ultralytics HUB.

Défis et considérations

La mise en œuvre et la formation efficaces des modèles de MoE impliquent des défis tels que la garantie d'une charge équilibrée entre les experts (pour éviter que certains experts ne soient sur- ou sous-utilisés), la gestion des frais généraux de communication dans les environnements de formation distribués (comme on le voit dans des cadres tels que PyTorch et TensorFlow), et la complexité accrue du processus de formation. Il est également nécessaire d'examiner attentivement les options de déploiement des modèles.

Tout lire