Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Mixture of Experts (MoE)

Explore l'architecture du mélange d'experts (MoE). Apprends comment les réseaux de porte (gating) et les couches éparses mettent à l'échelle les réseaux de neurones pour une IA et une vision par ordinateur hautes performances.

Le Mixture of Experts (MoE) est une conception architecturale spécialisée en deep learning qui permet aux modèles de passer à une échelle massive sans augmentation proportionnelle du coût computationnel. Contrairement à un neural network (NN) dense standard, où chaque paramètre est actif pour chaque entrée, un modèle MoE emploie une technique appelée calcul conditionnel. Cette approche n'active dynamiquement qu'un petit sous-ensemble des composants du réseau — appelés « experts » — en fonction des caractéristiques spécifiques des données d'entrée. Ce faisant, les architectures MoE permettent la création de foundation models puissants qui peuvent posséder des billions de paramètres tout en conservant la inference latency et la vitesse opérationnelle de systèmes beaucoup plus petits.

Link to this sectionMécanismes fondamentaux du MoE#

L'efficacité d'un modèle Mixture of Experts découle du remplacement des couches denses standard par une couche MoE creuse. Cette couche se compose généralement de deux éléments principaux qui travaillent en tandem pour traiter les informations efficacement :

  • Les experts : Ce sont des sous-réseaux indépendants, souvent des réseaux de neurones à propagation avant (FFN) simples. Chaque expert se spécialise dans le traitement de différents aspects des données. Dans le contexte du natural language processing (NLP), un expert pourrait devenir compétent dans la gestion de la grammaire, tandis qu'un autre se concentre sur la récupération factuelle ou la syntaxe du code.
  • Le réseau de routage (Routeur) : Le routeur agit comme un contrôleur de trafic pour les données. Lorsqu'une entrée — telle qu'un patch d'image ou un jeton de texte — entre dans la couche, le routeur calcule un score de probabilité à l'aide d'une softmax function. Il dirige ensuite cette entrée uniquement vers les experts « Top-K » (généralement un ou deux) ayant les scores les plus élevés. Cela garantit que le modèle ne dépense de l'énergie que sur les paramètres les plus pertinents.

Link to this sectionDistinction par rapport aux ensembles de modèles#

Bien que les deux concepts impliquent l'utilisation de sous-modèles multiples, il est crucial de distinguer un Mixture of Experts d'un model ensemble. Dans un ensemble traditionnel, chaque modèle du groupe traite la même entrée, et leurs résultats sont moyennés ou soumis à un vote pour maximiser l'accuracy. Cette approche augmente le coût computationnel linéairement avec le nombre de modèles.

À l'inverse, un MoE est un modèle unique et unifié où différentes entrées suivent des chemins différents. Un MoE creux vise la scalability et l'efficacité en n'exécutant qu'une fraction du total des paramètres pour toute étape d'inférence donnée. Cela permet un entraînement sur de vastes quantités de training data sans les coûts prohibitifs associés aux ensembles denses.

Link to this sectionApplications concrètes#

L'architecture MoE est devenue une pierre angulaire de l'IA moderne haute performance, particulièrement dans les scénarios nécessitant des capacités multi-tâches et une large rétention de connaissances.

  1. Modèles linguistiques multilingues : Des modèles de premier plan comme Mistral AI's Mixtral 8x7B utilisent le MoE pour exceller dans diverses tâches linguistiques. En acheminant les jetons vers des experts spécialisés, ces systèmes peuvent gérer la traduction, la synthèse et les tâches de codage au sein d'une structure de modèle unique, surpassant les modèles denses ayant un nombre de paramètres actifs similaire.

  2. Vision par ordinateur évolutive : Dans le domaine du computer vision (CV), les chercheurs appliquent le MoE pour construire des backbones de vision massifs. L'architecture Vision MoE (V-MoE) démontre comment les experts peuvent se spécialiser dans la reconnaissance de caractéristiques visuelles distinctes, améliorant efficacement les performances sur des benchmarks comme ImageNet. Bien que des modèles denses hautement optimisés comme YOLO26 restent la norme pour la détection en temps réel à la périphérie (edge) en raison de leur empreinte mémoire prévisible, la recherche sur le MoE continue de repousser les limites de la compréhension visuelle côté serveur.

Link to this sectionExemple de logique de routage#

Pour comprendre comment le réseau de routage sélectionne les experts, considère cet exemple PyTorch simplifié. Il démontre un mécanisme de routage qui sélectionne l'expert le plus pertinent pour une entrée donnée.

import torch
import torch.nn as nn

# A simple router deciding between 4 experts for input dimension of 10
num_experts = 4
input_dim = 10
router = nn.Linear(input_dim, num_experts)

# Batch of 2 inputs
input_data = torch.randn(2, input_dim)

# Calculate scores and select the top-1 expert for each input
logits = router(input_data)
probs = torch.softmax(logits, dim=-1)
weights, indices = torch.topk(probs, k=1, dim=-1)

print(f"Selected Expert Indices: {indices.flatten().tolist()}")

Link to this sectionDéfis en matière d'entraînement et de déploiement#

Malgré leurs avantages, les modèles MoE introduisent des défis uniques pour le training process. Un problème majeur est l'équilibrage de charge ; le routeur peut favoriser quelques experts « populaires » tout en ignorant les autres, ce qui conduit à un gaspillage de capacité. Pour atténuer cela, les chercheurs utilisent des loss functions auxiliaires pour encourager une utilisation égale de tous les experts.

De plus, le déploiement de ces modèles massifs nécessite des configurations matérielles sophistiquées. Comme le nombre total de paramètres est élevé (même si les paramètres actifs sont faibles), le modèle nécessite souvent une VRAM importante, ce qui impose un distributed training sur plusieurs GPUs. Des frameworks comme Microsoft DeepSpeed aident à gérer le parallélisme nécessaire pour entraîner ces systèmes efficacement. Pour la gestion des jeux de données et des workflows d'entraînement pour des architectures aussi complexes, des outils comme la Ultralytics Platform fournissent une infrastructure essentielle pour la journalisation, la visualisation et le déploiement.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique