Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Mixture of Experts (MoE)

Découvrez Mixture of Experts (MoE), une architecture d'IA révolutionnaire permettant de créer des modèles évolutifs et efficaces pour le NLP, la vision, la robotique, et bien plus encore.

Le mélange d'experts (MoE) est une architecture de réseau neuronal (NN) réseau neuronal (NN) spécialisé, conçu pour d'augmenter efficacement la capacité du modèle sans augmentation proportionnelle des coûts de calcul. Contrairement aux modèles traditionnels traditionnels "denses" où chaque paramètre est actif pour chaque entrée, un modèle MoE utilise une technique appelée "calcul conditionnel". calcul conditionnel. Cela permet au système de n'activer dynamiquement qu'un petit sous-ensemble de ses paramètres totaux, appelés "experts". paramètres - connus sous le nom d'"experts" - en fonction des exigences spécifiques des données d'entrée. En tirant parti de cette activation éparse, les chercheurs peuvent former des systèmes massifs, tels que les les grands modèles de langage (LLM), qui possèdent des de paramètres tout en conservant la latence et la vitesse d'inférence d'un la latence et la vitesse d'inférence d'un modèle beaucoup plus petit. beaucoup plus petits.

Composants essentiels de l'architecture des ministères de l'environnement

Le cadre MoE remplace les couches denses standard par une couche MoE clairsemée, qui se compose de deux éléments principaux qui travaillent en tandem pour traiter les informations :

  • Réseaux d'experts: Il s'agit de sous-réseaux indépendants, souvent de simples souvent des réseaux simples de type "Feed-Forward" (FFN), spécialisés spécialisés dans le traitement de différents types de données. Par exemple, dans un réseau de traitement du langage naturel (NLP) un expert peut se concentrer sur la structure grammaticale tandis qu'un autre se spécialise dans les expressions idiomatiques.
  • Réseau de portes (routeur) : Le routeur agit comme un contrôleur de trafic. Pour chaque jeton d'entrée ou il calcule une distribution de probabilités au moyen d'une fonction fonction softmax pour déterminer quels experts sont les mieux pour traiter cette entrée spécifique. Il achemine généralement les données vers les experts "Top-K" (généralement 1 ou 2), ce qui garantit que la majeure partie du modèle reste inactive et permet d'économiser les ressources informatiques.

MoE vs. Ensembles modèles

Bien que les deux architectures impliquent de multiples sous-modèles, il est crucial de distinguer mélange d'experts d'un ensemble de modèles.

  • Ensembles de modèles : Dans les méthodes telles que comme le bagging ou le boosting, plusieurs modèles distincts traitent la même entrée de manière indépendante, et leurs prédictions sont agrégées pour améliorer la qualité du modèle. la même entrée de manière indépendante, et leurs prédictions sont agrégées afin d'améliorer l 'exactitude. Cette approche augmente le coût de calcul de manière linéaire avec le nombre de modèles, car chaque modèle s'exécute pour chaque inférence. linéairement avec le nombre de modèles, car chaque modèle s'exécute pour chaque inférence.
  • Mélange d'experts : Un mélange d'experts est un modèle unique et unifié dans lequel les différentes entrées suivent des chemins différents à travers le réseau. à travers le réseau. Seuls les experts sélectionnés sont exécutés, ce qui permet au modèle d'être extrêmement vaste en termes de paramètres, mais peu complexe en termes de calcul. de paramètres, mais peu complexe en termes de calcul. Cela permet une que les ensembles denses ne peuvent pas égaler.

Applications concrètes

L'architecture MoE est devenue la pierre angulaire de l'IA moderne à haute performance, en particulier dans les scénarios nécessitant une grande capacité de rétention des connaissances et des capacités multi-tâches.

  1. Génération de langues avancées : Les principaux modèles de fondation, tels que Mixtral 8x7B de Mistral AI et Google Switch Transformers de Google, utilisent le MoE pour gérer diverses tâches linguistiques. En acheminant les jetons vers des experts spécialisés, ces modèles peuvent maîtriser plusieurs langues et syntaxes de codage. simultanément plusieurs langues et syntaxes de codage sans avoir à supporter les coûts de formation prohibitifs des modèles denses de taille équivalente. de taille équivalente.
  2. Vision par ordinateur évolutive : Dans le domaine de la vision par ordinateur (CV), MoE est utilisé pour créer des polyvalents pour des tâches telles que la détection d'objets et la classification d'images. Un modèle de vision basé sur le modèle de vision basé sur le MoE, tel que le Vision MoE (V-MoE) de Google, permet de dédier des experts spécifiques à la reconnaissance de caractéristiques visuelles distinctes, telles que les textures par rapport aux formes. experts spécifiques pour reconnaître des caractéristiques visuelles distinctes (textures ou formes, par exemple), ce qui permet d'améliorer les performances sur des ensembles de données massifs tels que les images, les photos, les vidéos, etc. sur des ensembles de données massifs tels que ImageNet. Les modèles efficaces actuels comme YOLO11 s'appuient sur des architectures denses optimisées, mais futurs projets de R&D comme YOLO26 explorent des stratégies architecturales stratégies architecturales avancées pour maximiser le compromis entre la taille et la vitesse.

Exemple de logique de routage

Il est essentiel de comprendre le mécanisme de routage pour saisir le fonctionnement de la MoE. Les éléments suivants PyTorch suivant montre un mécanisme de routage simplifié qui sélectionne les 2 meilleurs experts pour un lot d'entrée donné.

import torch
import torch.nn as nn

# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128

# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim)  # Batch of 4 inputs

# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)

# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)

print(f"Selected Expert Indices:\n{indices}")

Les défis de la formation

Malgré leur efficacité, les modèles MoE introduisent de la complexité dans le processus de formation. processus de formation. L'un des principaux défis est l'équilibrage de la charge. l'équilibrage de la charge; le réseau d'accès peut converger vers un état où il achemine tout vers quelques experts "populaires", laissant les autres sans formation. quelques experts "populaires", laissant les autres sous-entraînés. Pour éviter cela, les chercheurs appliquent des fonctions de perte auxiliaires qui encouragent une distribution uniforme entre tous les experts. En outre, la mise en œuvre du MoE nécessite une infrastructure de formation sophistiquée pour gérer la communication entre les la communication entre les experts répartis sur différents GPU. Des bibliothèques telles que Microsoft DeepSpeed et TensorFlow Mesh ont été développées spécifiquement pour gérer ces problèmes de parallélisation.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant