Glossario

Miscela di esperti (MoE)

Scopri Mixture of Experts (MoE), un'architettura AI innovativa che consente modelli scalabili ed efficienti per NLP, visione, robotica e altro ancora.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

La Mixture of Experts (MoE) è una tecnica di apprendimento automatico (ML) basata sul principio del "divide et impera". Invece di utilizzare un singolo modello monolitico di grandi dimensioni per gestire tutti i tipi di dati o di attività, un'architettura MoE impiega molteplici sottomodelli più piccoli e specializzati, chiamati "esperti". Un meccanismo di gating determina quali sono gli esperti più adatti a elaborare un determinato input, attivando solo quelli selezionati. Questo approccio consente ai modelli di scalare in modo significativo in termini di numero di parametri, mantenendo il costo computazionale gestibile durante l'inferenza, poiché solo una frazione dei parametri totali del modello viene utilizzata per ogni specifico input.

Come funziona la miscela di esperti

Un modello MoE è tipicamente costituito da due componenti principali:

  1. Reti di esperti: Si tratta di più reti neurali (NN), spesso con un'architettura uguale o simile, ciascuna addestrata per diventare esperta nella gestione di specifici tipi di dati o sotto-compiti all'interno di uno spazio problematico più ampio. Ad esempio, nell'elaborazione del linguaggio naturale (NLP), diversi esperti potrebbero specializzarsi in diversi aspetti del linguaggio o dei domini di conoscenza.
  2. Rete Gating (Router): Si tratta di un'altra rete neurale, in genere più piccola e più veloce, che analizza i dati in ingresso e decide quali esperti devono elaborarli. Fornisce dei pesi che indicano la rilevanza o il contributo di ciascun esperto per il dato input. In molte implementazioni moderne, in particolare nei modelli MoE radi, la rete gating seleziona solo un piccolo numero (ad esempio, top-k) di esperti da attivare.

L'uscita finale dello strato MoE è spesso una combinazione ponderata delle uscite degli esperti attivati, basata sui pesi forniti dalla rete di attivazione. Questa attivazione selettiva, o "attivazione rada", è la chiave dei guadagni di efficienza offerti dalla MoE.

Vantaggi del MoE

Le architetture MoE offrono diversi vantaggi significativi, soprattutto per i modelli molto grandi:

  • Efficienza computazionale: Attivando solo un sottoinsieme di esperti per ogni token o punto di dati in ingresso, i modelli MoE possono ridurre drasticamente il carico computazionale(FLOPs) rispetto a modelli densi di dimensioni simili in cui tutti i parametri vengono utilizzati per ogni calcolo. Questo porta a una formazione più veloce e a una minore latenza di inferenza.
  • Scalabilità: MoE consente di creare modelli con un numero estremamente elevato di parametri (in alcuni casi trilioni) senza un aumento proporzionale del costo computazionale per inferenza. Questo è fondamentale per spingere i confini del deep learning (DL). Esplora i concetti di scalabilità dei modelli.
  • Prestazioni: La specializzazione permette agli esperti di diventare altamente competenti nei rispettivi domini, portando potenzialmente a una migliore accuratezza complessiva del modello e a prestazioni migliori su compiti complessi rispetto a un singolo modello denso. Una formazione efficace richiede spesso un'attenta regolazione degli iperparametri.

MoE vs. concetti correlati

È importante differenziare il MoE dalle altre tecniche:

  • Metodi ensemble: Sebbene entrambi utilizzino più modelli, gli ensemble in genere addestrano diversi modelli indipendenti (spesso densi) e combinano le loro previsioni (ad esempio, facendo una media). Tutti i modelli di un ensemble di solito elaborano ogni input. Al contrario, il MoE coinvolge parti specializzate all'interno di un unico modello più grande e solo un sottoinsieme viene attivato per ogni input.
  • Modelli densi: Le reti neurali tradizionali, tra cui i trasformatori standard e le reti neurali convoluzionali (CNN) come quelle utilizzate in Ultralytics YOLO sono spesso "dense". Ciò significa che la maggior parte o tutti i parametri(pesi del modello) sono coinvolti nell'elaborazione di ogni input. MoE introduce la sparsità per ridurre questo carico computazionale.

Applicazioni del mondo reale

Il MoE è stato adottato in modo significativo, soprattutto nei modelli di grandi dimensioni all'avanguardia:

  1. Modelli linguistici di grandi dimensioni (LLM): Questa è l'area di applicazione più importante. Modelli come GShard e Switch Transformers diGoogle, così come modelli open-source come la serie Mixtral di Mistral AI, incorporano strati MoE nelle loro architetture Transformer. Questo permette loro di raggiungere prestazioni elevate con una velocità di inferenza maggiore rispetto a modelli densi di pari dimensioni. Questi modelli eccellono in compiti come la generazione di testi e la risposta alle domande.
  2. Visione artificiale (CV): Sebbene sia meno comune rispetto all'NLP, la MoE viene esplorata nei modelli di visione. La ricerca suggerisce potenziali vantaggi per compiti come la classificazione delle immagini e il rilevamento degli oggetti, grazie alla specializzazione degli esperti nel riconoscimento di diverse caratteristiche visive (ad esempio, texture, forme, categorie specifiche di oggetti) o nella gestione di diverse condizioni dell'immagine. Questo contrasta con i modelli di visione densi altamente ottimizzati, come ad esempio YOLO11che raggiungono l'efficienza grazie alla progettazione architettonica piuttosto che all'attivazione rada. I trasformatori di visione (ViT) sono un'altra area in cui il MoE potrebbe essere applicato. È possibile gestire e addestrare i modelli di visione utilizzando piattaforme come Ultralytics HUB.

Sfide e considerazioni

Implementare e addestrare efficacemente i modelli MoE comporta sfide come garantire un carico bilanciato tra gli esperti (evitando che alcuni esperti siano sovra/sottoutilizzati), gestire l'overhead di comunicazione in ambienti di addestramento distribuiti (come si vede in framework come PyTorch e TensorFlow) e la maggiore complessità del processo di formazione. È necessaria anche un'attenta considerazione delle opzioni di distribuzione dei modelli.

Leggi tutto