Glossário

Mistura de peritos (MdE)

Descobre a Mixture of Experts (MoE), uma arquitetura de IA inovadora que permite modelos escaláveis e eficientes para PNL, visão, robótica e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Mistura de Peritos (MoE) é uma técnica de aprendizagem automática (ML) baseada no princípio "dividir para conquistar". Em vez de utilizar um único e grande modelo monolítico para tratar todos os tipos de dados ou tarefas, uma arquitetura MoE emprega vários submodelos mais pequenos e especializados chamados "peritos". Um mecanismo de gating determina qual(is) o(s) especialista(s) mais adequado(s) para processar uma determinada entrada, activando apenas os especialistas selecionados. Esta abordagem permite que os modelos escalem significativamente em termos de contagem de parâmetros, mantendo o custo computacional controlável durante a inferência, uma vez que apenas uma fração dos parâmetros totais do modelo é utilizada para qualquer entrada específica.

Como funciona a mistura de especialistas

Um modelo de MdE é normalmente constituído por dois componentes principais:

  1. Redes especializadas: Trata-se de várias redes neuronais (NN), muitas vezes com a mesma arquitetura ou uma arquitetura semelhante, cada uma treinada para se tornar competente no tratamento de tipos específicos de dados ou sub-tarefas num espaço problemático mais vasto. Por exemplo, no processamento de linguagem natural (PNL), diferentes peritos podem especializar-se em diferentes aspectos da linguagem ou domínios de conhecimento.
  2. Rede de Gating (Router): Trata-se de outra rede neural, normalmente mais pequena e mais rápida, que analisa os dados de entrada e decide que perito(s) os deve(m) processar. Emite pesos que indicam a relevância ou a contribuição de cada especialista para a entrada em questão. Em muitas implementações modernas, particularmente em modelos de MdE esparsos, a rede de gating seleciona apenas um pequeno número (por exemplo, top-k) de especialistas para ativar.

A saída final da camada MoE é frequentemente uma combinação ponderada das saídas dos especialistas activados, com base nos pesos fornecidos pela rede de gating. Esta ativação selectiva, ou "ativação esparsa", é a chave para os ganhos de eficiência oferecidos pelo MoE.

Benefícios do MdE

As arquitecturas MoE oferecem várias vantagens significativas, especialmente para modelos muito grandes:

  • Eficiência computacional: Ao ativar apenas um subconjunto de especialistas para cada token de entrada ou ponto de dados, os modelos MoE podem reduzir drasticamente a carga computacional(FLOPs) em comparação com modelos densos de dimensão semelhante, em que todos os parâmetros são utilizados para cada cálculo. Isto leva a um treino mais rápido e a uma menor latência de inferência.
  • Escalabilidade: O MoE permite a criação de modelos com um número extremamente elevado de parâmetros (triliões em alguns casos) sem um aumento proporcional do custo computacional por inferência. Isto é crucial para alargar os limites da aprendizagem profunda (DL). Explora os conceitos de escalabilidade de modelos.
  • Desempenho: A especialização permite que os peritos se tornem altamente competentes nos seus respectivos domínios, o que pode levar a uma melhor precisão global do modelo e a um melhor desempenho em tarefas complexas, em comparação com um único modelo denso. Um treino eficaz requer frequentemente uma afinação cuidadosa dos hiperparâmetros.

MdE vs. Conceitos relacionados

É importante distinguir o MoE de outras técnicas:

  • Métodos de conjunto: Embora ambos utilizem vários modelos, os conjuntos normalmente treinam vários modelos independentes (muitas vezes densos) e combinam as suas previsões (por exemplo, calculando a média). Todos os modelos de um conjunto processam normalmente todas as entradas. Em contraste, o MoE envolve partes especializadas dentro de um único modelo maior, e apenas um subconjunto é ativado por entrada.
  • Modelos densos: Redes neurais tradicionais, incluindo transformadores padrão e redes neurais convolucionais (CNNs), como as utilizadas em Ultralytics YOLO do Ultralytics, são frequentemente "densas". Isso significa que a maioria ou todos os parâmetros(pesos do modelo) estão envolvidos no processamento de cada entrada. O MoE introduz a esparsidade para reduzir esta carga computacional.

Aplicações no mundo real

O MoE foi adotado de forma significativa, especialmente em modelos de grande dimensão e de última geração:

  1. Modelos de linguagem de grande dimensão (LLMs): Esta é a área de aplicação mais proeminente. Modelos como o GShard e o Switch Transformers daGoogle, bem como modelos de código aberto como a série Mixtral da Mistral AI, incorporam camadas MoE nas suas arquitecturas Transformer. Isto permite-lhes alcançar um elevado desempenho com velocidades de inferência mais rápidas em comparação com modelos densos de igual dimensão. Estes modelos são excelentes em tarefas como a geração de texto e a resposta a perguntas.
  2. Visão por computador (CV): Embora menos comum do que na PNL, a MoE está a ser explorada em modelos de visão. A investigação sugere potenciais benefícios para tarefas como a classificação de imagens e a deteção de objectos, ao fazer com que os peritos se especializem no reconhecimento de diferentes caraterísticas visuais (por exemplo, texturas, formas, categorias específicas de objectos) ou no tratamento de diferentes condições de imagem. Isto contrasta com modelos de visão densos e altamente optimizados como YOLO11que atingem a eficiência através do design arquitetónico e não da ativação esparsa. Os transformadores de visão (ViTs) são outra área onde o MoE pode ser aplicado. Podes gerir e treinar modelos de visão utilizando plataformas como o Ultralytics HUB.

Desafios e considerações

Implementar e treinar modelos de MdE de forma eficaz envolve desafios como garantir uma carga equilibrada entre peritos (impedindo que alguns peritos sejam sobre ou subutilizados), gerir a sobrecarga de comunicação em ambientes de formação distribuídos (como se vê em estruturas como PyTorch e TensorFlow), e o aumento da complexidade no processo de formação. Também é necessária uma análise cuidadosa das opções de implementação do modelo.

Lê tudo