A Mistura de Peritos (MoE) é uma técnica de aprendizagem automática (ML) baseada no princípio "dividir para conquistar". Em vez de utilizar um único e grande modelo monolítico para tratar todos os tipos de dados ou tarefas, uma arquitetura MoE emprega vários submodelos mais pequenos e especializados chamados "peritos". Um mecanismo de gating determina qual(is) o(s) especialista(s) mais adequado(s) para processar uma determinada entrada, activando apenas os especialistas selecionados. Esta abordagem permite que os modelos escalem significativamente em termos de contagem de parâmetros, mantendo o custo computacional controlável durante a inferência, uma vez que apenas uma fração dos parâmetros totais do modelo é utilizada para qualquer entrada específica.
Como funciona a mistura de especialistas
Um modelo de MdE é normalmente constituído por dois componentes principais:
- Redes especializadas: Trata-se de várias redes neuronais (NN), muitas vezes com a mesma arquitetura ou uma arquitetura semelhante, cada uma treinada para se tornar competente no tratamento de tipos específicos de dados ou sub-tarefas num espaço problemático mais vasto. Por exemplo, no processamento de linguagem natural (PNL), diferentes peritos podem especializar-se em diferentes aspectos da linguagem ou domínios de conhecimento.
- Rede de Gating (Router): Trata-se de outra rede neural, normalmente mais pequena e mais rápida, que analisa os dados de entrada e decide que perito(s) os deve(m) processar. Emite pesos que indicam a relevância ou a contribuição de cada especialista para a entrada em questão. Em muitas implementações modernas, particularmente em modelos de MdE esparsos, a rede de gating seleciona apenas um pequeno número (por exemplo, top-k) de especialistas para ativar.
A saída final da camada MoE é frequentemente uma combinação ponderada das saídas dos especialistas activados, com base nos pesos fornecidos pela rede de gating. Esta ativação selectiva, ou "ativação esparsa", é a chave para os ganhos de eficiência oferecidos pelo MoE.
Benefícios do MdE
As arquitecturas MoE oferecem várias vantagens significativas, especialmente para modelos muito grandes:
- Eficiência computacional: Ao ativar apenas um subconjunto de especialistas para cada token de entrada ou ponto de dados, os modelos MoE podem reduzir drasticamente a carga computacional(FLOPs) em comparação com modelos densos de dimensão semelhante, em que todos os parâmetros são utilizados para cada cálculo. Isto leva a um treino mais rápido e a uma menor latência de inferência.
- Escalabilidade: O MoE permite a criação de modelos com um número extremamente elevado de parâmetros (triliões em alguns casos) sem um aumento proporcional do custo computacional por inferência. Isto é crucial para alargar os limites da aprendizagem profunda (DL). Explora os conceitos de escalabilidade de modelos.
- Desempenho: A especialização permite que os peritos se tornem altamente competentes nos seus respectivos domínios, o que pode levar a uma melhor precisão global do modelo e a um melhor desempenho em tarefas complexas, em comparação com um único modelo denso. Um treino eficaz requer frequentemente uma afinação cuidadosa dos hiperparâmetros.
MdE vs. Conceitos relacionados
É importante distinguir o MoE de outras técnicas:
- Métodos de conjunto: Embora ambos utilizem vários modelos, os conjuntos normalmente treinam vários modelos independentes (muitas vezes densos) e combinam as suas previsões (por exemplo, calculando a média). Todos os modelos de um conjunto processam normalmente todas as entradas. Em contraste, o MoE envolve partes especializadas dentro de um único modelo maior, e apenas um subconjunto é ativado por entrada.
- Modelos densos: Redes neurais tradicionais, incluindo transformadores padrão e redes neurais convolucionais (CNNs), como as utilizadas em Ultralytics YOLO do Ultralytics, são frequentemente "densas". Isso significa que a maioria ou todos os parâmetros(pesos do modelo) estão envolvidos no processamento de cada entrada. O MoE introduz a esparsidade para reduzir esta carga computacional.