Scoprite Mixture of Experts (MoE), un'architettura AI innovativa che consente modelli scalabili ed efficienti per NLP, visione, robotica e altro ancora.
Una Mixture of Experts (MoE) è un'architettura di rete neurale (NN) che consente ai modelli di apprendere in modo più efficiente dividendo un problema tra sotto-modelli specializzati, noti come "esperti". Invece di un singolo modello monolitico che elabora tutti gli input, un'architettura MoE utilizza una "rete di selezione" per indirizzare dinamicamente ogni input all'esperto o agli esperti più rilevanti. Questo approccio si ispira all'idea che un team di specialisti, ognuno dei quali eccelle in un compito specifico, possa risolvere collettivamente problemi complessi in modo più efficace di un singolo generalista. Questo calcolo condizionale permette ai modelli MoE di scalare fino a un numero enorme di parametri, mantenendo al contempo il costo computazionale per l'inferenza gestibile, poiché solo una frazione del modello viene utilizzata per ogni dato input.
L'architettura del MoE è costituita da due componenti principali:
Reti di esperti: Si tratta di più reti neurali più piccole, spesso con architetture identiche, che vengono addestrate per diventare specialiste di diverse parti dei dati. Ad esempio, in un modello per l'elaborazione del linguaggio naturale (NLP), un esperto potrebbe specializzarsi nella traduzione dall'inglese al francese, mentre un altro diventa esperto nella generazione di codice Python. Ogni esperto è un componente di un sistema di deep learning più ampio.
Rete Gating: Si tratta di una piccola rete neurale che funge da controllore del traffico o da router. Prende l'input e determina quale esperto o quale combinazione di esperti è più adatta a gestirlo. La rete gating produce delle probabilità per ogni esperto e, in base a queste, attiva selettivamente uno o pochi esperti per elaborare l'input. Questa tecnica di attivare solo un sottoinsieme della rete è spesso chiamata attivazione rada ed è un concetto fondamentale descritto in documenti autorevoli come"Outrageously Large Neural Networks" di Google.
Durante il processo di addestramento, sia le reti di esperti che la rete di gating vengono addestrate simultaneamente utilizzando la backpropagation. Il sistema impara non solo a risolvere il compito con gli esperti, ma anche a indirizzare gli input in modo efficace attraverso la rete gating.
La Miscela di Esperti viene spesso paragonata all'ensembling di modelli, ma i loro principi di funzionamento sono fondamentalmente diversi.
Le architetture MoE sono diventate particolarmente importanti per lo scaling up di modelli all'avanguardia, soprattutto in NLP.
L'implementazione efficace dei modelli MoE comporta sfide quali la garanzia di un carico bilanciato tra gli esperti (evitando che alcuni esperti siano sovra o sottoutilizzati), la gestione dell'overhead di comunicazione in ambienti di formazione distribuiti (come si vede in framework come PyTorch e TensorFlow) e la maggiore complessità del processo di formazione. È inoltre necessario considerare attentamente le opzioni di distribuzione e gestione dei modelli utilizzando piattaforme come Ultralytics HUB.