Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Mixture of Experts (MoE)

Découvrez Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant de créer des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, et bien plus encore.

Un réseau d'experts (MoE) est une architecture de réseau neuronal (NN) qui permet aux modèles d'apprendre plus efficacement en divisant un problème entre des sous-modèles spécialisés, appelés "experts". Au lieu d'un seul modèle monolithique traitant chaque entrée, une architecture MoE utilise un "réseau de gating" pour acheminer dynamiquement chaque entrée vers le(s) expert(s) le(s) plus pertinent(s). Cette approche s'inspire de l'idée qu'une équipe de spécialistes, chacun excellent dans une tâche spécifique, peut collectivement résoudre des problèmes complexes plus efficacement qu'un seul généraliste. Ce calcul conditionnel permet aux modèles MoE de s'adapter à un nombre énorme de paramètres tout en maintenant le coût de calcul pour l'inférence gérable, car seule une fraction du modèle est utilisée pour une entrée donnée.

Comment fonctionne le modèle Mixture of Experts

L'architecture MoE se compose de deux composants principaux :

  1. Réseaux d’experts : Il s’agit de plusieurs petits réseaux neuronaux, souvent dotés d’architectures identiques, qui sont entraînés pour se spécialiser dans différentes parties des données. Par exemple, dans un modèle de traitement du langage naturel (TLN), un expert peut se spécialiser dans la traduction de l’anglais vers le français, tandis qu’un autre devient compétent dans la génération de code Python. Chaque expert est une composante d’un système de deep learning plus vaste.

  2. Réseau de gating : Il s'agit d'un petit réseau neuronal qui agit comme un contrôleur de trafic ou un routeur. Il prend l'entrée et détermine quel expert ou combinaison d'experts est le mieux adapté pour la traiter. Le réseau de gating produit des probabilités pour chaque expert et, sur cette base, il active sélectivement un ou quelques experts pour traiter l'entrée. Cette technique qui consiste à n'activer qu'un sous-ensemble du réseau est souvent appelée activation clairsemée et est un concept central détaillé dans des articles influents comme celui de Google intitulé « Outrageously Large Neural Networks ».

Pendant le processus d'entraînement, les réseaux experts et le réseau de gating sont entraînés simultanément à l'aide de la rétropropagation. Le système apprend non seulement à résoudre la tâche au sein des experts, mais aussi à acheminer efficacement les entrées via le réseau de gating.

MoE vs. Ensemble de modèles

L'approche "Mixture of Experts" est souvent comparée à l'assemblage de modèles, mais elles fonctionnent selon des principes fondamentalement différents.

  • Méthodes d'ensemble : Dans un ensemble standard, plusieurs modèles différents sont entraînés indépendamment (ou sur différents sous-ensembles de données). Pour l'inférence, tous les modèles traitent l'entrée, et leurs sorties sont combinées (par exemple, par vote ou par moyenne) pour produire un résultat final. Cela améliore la robustesse et la précision, mais augmente considérablement le coût de calcul, car chaque modèle de l'ensemble doit être exécuté.
  • Mélange d'experts : Dans un MoE, tous les experts font partie d'un seul modèle plus grand et sont formés ensemble. Pour toute entrée donnée, le réseau de gating sélectionne seulement quelques experts à exécuter. Cela rend l'inférence beaucoup plus rapide et plus efficace sur le plan computationnel qu'un modèle dense de taille équivalente ou un ensemble, car la majorité des paramètres du modèle restent inutilisés pour chaque tâche spécifique.

Applications concrètes

Les architectures MoE sont devenues particulièrement importantes pour la mise à l'échelle des modèles de pointe, en particulier dans le domaine du NLP.

  1. Grands modèles linguistiques (LLM) : MoE est la technologie clé derrière certains des LLM les plus puissants. Par exemple, Mixtral 8x7B de Mistral AI et les Switch Transformers de Google utilisent MoE pour créer des modèles avec des centaines de milliards, voire des trillions de paramètres. Cette échelle massive améliore leurs connaissances et leurs capacités de raisonnement sans rendre l'inférence prohibitivement coûteuse.
  2. Vision par ordinateur : Bien que plus courant dans les LLM basés sur Transformer, le concept de MoE est également applicable à la vision par ordinateur (CV). Pour une tâche complexe de classification d'images avec des catégories très diverses, un modèle MoE pourrait avoir des experts spécialisés dans l'identification des animaux, des véhicules et des bâtiments. Le réseau de gating analyserait d'abord l'image et activerait l'expert approprié, ce qui conduirait à un traitement plus efficace. Cette approche pourrait être explorée dans des modèles avancés tels que Ultralytics YOLO11.

Défis et considérations

La mise en œuvre efficace des modèles MoE implique des défis tels que la garantie d'une charge équilibrée entre les experts (empêchant certains experts d'être surutilisés ou sous-utilisés), la gestion de la surcharge de communication dans les environnements d'entraînement distribué (comme on le voit dans les frameworks comme PyTorch et TensorFlow), et la complexité accrue du processus d'entraînement. Une attention particulière aux options de déploiement des modèles et à la gestion à l'aide de plateformes comme Ultralytics HUB est également nécessaire.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers