Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Mixture of Experts (MoE)

Scopri Mixture of Experts (MoE), un'innovativa architettura di IA che consente modelli scalabili ed efficienti per NLP, vision, robotica e altro ancora.

Un Mixture of Experts (MoE) è un'architettura di rete neurale (NN) che consente ai modelli di apprendere in modo più efficiente suddividendo un problema tra sottomodelli specializzati, noti come "esperti". Invece di un singolo modello monolitico che elabora ogni input, un'architettura MoE utilizza una "rete di gating" per indirizzare dinamicamente ogni input all'esperto o agli esperti più pertinenti. Questo approccio si ispira all'idea che un team di specialisti, ognuno dei quali eccelle in un'attività specifica, possa risolvere collettivamente problemi complessi in modo più efficace rispetto a un singolo generalista. Questo calcolo condizionale consente ai modelli MoE di scalare a un numero enorme di parametri, mantenendo gestibile il costo computazionale per l'inferenza, poiché solo una frazione del modello viene utilizzata per ogni dato input.

Come funziona il modello Mixture of Experts

L'architettura MoE è costituita da due componenti principali:

  1. Reti di esperti: Si tratta di reti neurali multiple più piccole, spesso con architetture identiche, che vengono addestrate per diventare specialisti in diverse parti dei dati. Ad esempio, in un modello per l'elaborazione del linguaggio naturale (NLP), un esperto potrebbe specializzarsi nella traduzione dall'inglese al francese, mentre un altro diventa esperto nella generazione di codice Python. Ogni esperto è un componente di un più ampio sistema di deep learning.

  2. Rete di gating: Questa è una piccola rete neurale che funge da controllore del traffico o router. Prende l'input e determina quale esperto o combinazione di esperti è più adatto a gestirlo. La rete di gating produce probabilità per ogni esperto e, in base a queste, attiva selettivamente uno o pochi esperti per elaborare l'input. Questa tecnica di attivare solo un sottoinsieme della rete è spesso chiamata attivazione sparsa ed è un concetto fondamentale dettagliato in documenti influenti come "Reti neurali enormemente grandi" di Google.

Durante il processo di addestramento, sia le reti esperte che la rete di gating vengono addestrate simultaneamente utilizzando la retropropagazione. Il sistema impara non solo come risolvere il compito all'interno degli esperti, ma anche come indirizzare efficacemente gli input tramite la rete di gating.

MoE vs. Ensemble di modelli

Il modello Mixture of Experts viene spesso paragonato all'model ensembling, ma operano su principi fondamentalmente diversi.

  • Metodi Ensemble: In un ensemble standard, più modelli diversi vengono addestrati in modo indipendente (o su diversi sottoinsiemi di dati). Per l'inferenza, tutti i modelli elaborano l'input e i loro output vengono combinati (ad esempio, tramite votazione o media) per produrre un risultato finale. Ciò migliora la robustezza e l'accuratezza, ma aumenta significativamente il costo computazionale, poiché ogni modello nell'ensemble deve essere eseguito.
  • Mixture of Experts: In un MoE, tutti gli esperti fanno parte di un singolo modello più grande e vengono addestrati insieme. Per ogni dato input, la rete di gating seleziona solo alcuni esperti da eseguire. Questo rende l'inferenza molto più veloce e computazionalmente efficiente rispetto a un modello denso di dimensioni equivalenti o a un ensemble, poiché la maggior parte dei parametri del modello rimane inutilizzata per ogni attività specifica.

Applicazioni nel mondo reale

Le architetture MoE sono diventate particolarmente importanti per scalare i modelli all'avanguardia, specialmente in NLP.

  1. Modelli Linguistici di Grandi Dimensioni (LLM): MoE è la tecnologia chiave alla base di alcuni dei più potenti LLM. Ad esempio, Mixtral 8x7B di Mistral AI e Switch Transformers di Google utilizzano MoE per creare modelli con centinaia di miliardi o addirittura trilioni di parametri. Questa scala massiccia aumenta le loro capacità di conoscenza e ragionamento senza rendere l'inferenza eccessivamente costosa.
  2. Computer Vision: Sebbene più comune nei LLM basati su Transformer, il concetto di MoE è applicabile anche alla computer vision (CV). Per un'attività complessa di classificazione di immagini con categorie molto diverse, un modello MoE potrebbe avere esperti specializzati nell'identificazione di animali, veicoli ed edifici. La rete di gating analizzerebbe prima l'immagine e attiverebbe l'esperto appropriato, portando a un'elaborazione più efficiente. Questo approccio potrebbe essere esplorato in modelli avanzati come Ultralytics YOLO11.

Sfide e considerazioni

L'implementazione efficace dei modelli MoE comporta sfide come garantire un carico bilanciato tra gli esperti (evitando che alcuni esperti siano sovra- o sottoutilizzati), gestire l'overhead di comunicazione in ambienti di distributed training (come si vede in framework come PyTorch e TensorFlow) e la maggiore complessità nel processo di training. È inoltre necessaria un'attenta considerazione delle opzioni di implementazione del modello e della gestione tramite piattaforme come Ultralytics HUB.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti