Glossário

Mistura de peritos (MdE)

Descubra o Mixture of Experts (MoE), uma arquitetura de IA inovadora que permite modelos escaláveis e eficientes para PNL, visão, robótica e muito mais.

Uma mistura de especialistas (MoE) é uma arquitetura de rede neural (NN) que permite que os modelos aprendam de forma mais eficiente, dividindo um problema entre submodelos especializados, conhecidos como "especialistas". Em vez de um modelo único e monolítico que processa todas as entradas, uma arquitetura MoE utiliza uma "rede de gating" para encaminhar dinamicamente cada entrada para o(s) especialista(s) mais relevante(s). Esta abordagem é inspirada na ideia de que uma equipa de especialistas, cada um deles excelente numa tarefa específica, pode resolver coletivamente problemas complexos de forma mais eficaz do que um único generalista. Esta computação condicional permite que os modelos MoE sejam dimensionados para um enorme número de parâmetros, mantendo o custo computacional da inferência controlável, uma vez que apenas uma fração do modelo é utilizada para qualquer entrada.

Como funciona a mistura de peritos

A arquitetura do MdE é constituída por dois componentes principais:

  1. Redes de especialistas: Trata-se de várias redes neuronais mais pequenas, muitas vezes com arquitecturas idênticas, que são treinadas para se tornarem especialistas em diferentes partes dos dados. Por exemplo, num modelo para processamento de linguagem natural (PNL), um perito pode especializar-se na tradução de inglês para francês, enquanto outro se torna proficiente na geração de código Python. Cada especialista é um componente de um sistema de aprendizagem profunda maior.

  2. Rede de Gating: Trata-se de uma pequena rede neuronal que actua como controlador de tráfego ou router. Ela recebe a entrada e determina qual especialista ou combinação de especialistas é mais adequado para lidar com ela. A rede gating produz probabilidades para cada perito e, com base nelas, ativa seletivamente um ou alguns peritos para processar a entrada. Esta técnica de ativação de apenas um subconjunto da rede é frequentemente designada por ativação esparsa e é um conceito central detalhado em documentos influentes como"Outrageously Large Neural Networks" da Google.

Durante o processo de formação, as redes de especialistas e a rede de gating são treinadas simultaneamente utilizando a retropropagação. O sistema aprende não só a resolver a tarefa com os especialistas, mas também a encaminhar as entradas de forma eficaz através da rede de gating.

MoE vs. Conjunto de Modelos

A Mistura de Peritos é frequentemente comparada com o conjunto de modelos, mas funcionam com base em princípios fundamentalmente diferentes.

  • Métodos de Ensemble: Num conjunto padrão, vários modelos diferentes são treinados de forma independente (ou em diferentes subconjuntos de dados). Para a inferência, todos os modelos processam a entrada e as suas saídas são combinadas (por exemplo, através de votação ou cálculo da média) para produzir um resultado final. Isto melhora a robustez e a precisão, mas aumenta significativamente o custo computacional, uma vez que todos os modelos do conjunto têm de ser executados.
  • Mistura de especialistas: Num MdE, todos os especialistas fazem parte de um modelo único e maior e são treinados em conjunto. Para qualquer entrada dada, a rede de gating seleciona apenas alguns especialistas para executar. Isto torna a inferência muito mais rápida e computacionalmente mais eficiente do que um modelo denso de tamanho equivalente ou um conjunto, uma vez que a maioria dos parâmetros do modelo não é utilizada para cada tarefa específica.

Aplicações no mundo real

As arquitecturas MoE tornaram-se particularmente proeminentes na expansão dos modelos mais avançados, especialmente em PNL.

  1. Grandes Modelos de Linguagem (LLMs): O MoE é a tecnologia chave por trás de alguns dos LLMs mais poderosos. Por exemplo, o Mixtral 8x7B da Mistral AI e o Switch Transformers da Google utilizam o MoE para criar modelos com centenas de biliões ou mesmo triliões de parâmetros. Esta escala maciça aumenta as suas capacidades de conhecimento e raciocínio sem tornar a inferência proibitivamente dispendiosa.
  2. Visão por computador: Embora seja mais comum em LLMs baseados em transformadores, o conceito de MdE também é aplicável à visão computacional (CV). Para uma tarefa complexa de classificação de imagens com categorias muito diversas, um modelo de MdE poderia ter peritos especializados na identificação de animais, veículos e edifícios. A rede de gating analisaria primeiro a imagem e activaria o perito adequado, conduzindo a um processamento mais eficiente. Esta abordagem poderia ser explorada em modelos avançados como o Ultralytics YOLO11.

Desafios e considerações

A implementação eficaz de modelos MoE envolve desafios como garantir uma carga equilibrada entre peritos (evitando que alguns peritos sejam sobre ou subutilizados), gerir a sobrecarga de comunicação em ambientes de formação distribuídos (como se vê em estruturas como PyTorch e TensorFlow) e o aumento da complexidade no processo de formação. Também é necessário considerar cuidadosamente as opções de implementação e gestão de modelos utilizando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência