Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Mixture of Experts (MoE)

Explora a arquitetura Mixture of Experts (MoE). Aprende como redes de gating e camadas esparsas escalam redes neurais para IA de alto desempenho e visão computacional.

Mixture of Experts (MoE) é um design arquitetural especializado em deep learning que permite que modelos escalem para tamanhos massivos sem um aumento proporcional no custo computacional. Diferente de uma neural network (NN) densa padrão, onde cada parâmetro está ativo para cada entrada, um modelo MoE emprega uma técnica chamada computação condicional. Essa abordagem ativa dinamicamente apenas um pequeno subconjunto dos componentes da rede — referidos como "especialistas" — com base nas características específicas dos dados de entrada. Ao fazer isso, as arquiteturas MoE permitem a criação de foundation models poderosos que podem possuir trilhões de parâmetros enquanto mantêm a inference latency e a velocidade operacional de sistemas muito menores.

Link to this sectionMecanismos principais de MoE#

A eficiência de um modelo Mixture of Experts vem da substituição de camadas densas padrão por uma camada MoE esparsa. Essa camada consiste tipicamente em dois elementos principais que trabalham em conjunto para processar informações de forma eficiente:

  • Os Especialistas: Estas são sub-redes independentes, muitas vezes redes neurais feed-forward (FFNs) simples. Cada especialista especializa-se em lidar com diferentes aspetos dos dados. No contexto de natural language processing (NLP), um especialista pode tornar-se proficiente em lidar com gramática, enquanto outro foca-se na recuperação de factos ou na sintaxe de código.
  • A Rede de Gating (Roteador): O roteador atua como um controlador de tráfego para os dados. Quando uma entrada — como um patch de imagem ou um token de texto — entra na camada, o roteador calcula uma pontuação de probabilidade usando uma softmax function. Ele então direciona essa entrada apenas para os especialistas "Top-K" (geralmente um ou dois) com as pontuações mais altas. Isso garante que o modelo gaste energia apenas nos parâmetros mais relevantes.

Link to this sectionDistinção de Ensembles de Modelos#

Embora ambos os conceitos envolvam o uso de múltiplos sub-modelos, é crucial distinguir um Mixture of Experts de um model ensemble. Em um ensemble tradicional, cada modelo no grupo processa a mesma entrada, e os seus resultados são calculados pela média ou votação para maximizar a accuracy. Essa abordagem aumenta o custo computacional linearmente com o número de modelos.

Por outro lado, um MoE é um modelo único e unificado onde entradas diferentes atravessam caminhos diferentes. Um MoE esparso visa a scalability e eficiência executando apenas uma fração dos parâmetros totais para qualquer etapa de inferência. Isso permite o treinamento em grandes quantidades de training data sem os custos proibitivos associados a ensembles densos.

Link to this sectionAplicações no Mundo Real#

A arquitetura MoE tornou-se uma pedra angular para a IA moderna de alto desempenho, particularmente em cenários que exigem capacidades multitarefa e retenção de conhecimento amplo.

  1. Modelos de Linguagem Multilíngues: Modelos proeminentes como o Mistral AI's Mixtral 8x7B utilizam MoE para se destacarem em diversas tarefas linguísticas. Ao rotear tokens para especialistas especializados, esses sistemas podem lidar com tradução, resumo e tarefas de codificação dentro de uma única estrutura de modelo, superando modelos densos de contagens de parâmetros ativos semelhantes.

  2. Visão Computacional Escalável: No reino da computer vision (CV), pesquisadores aplicam MoE para construir backbones de visão massivos. A arquitetura Vision MoE (V-MoE) demonstra como os especialistas podem se especializar no reconhecimento de recursos visuais distintos, escalando efetivamente o desempenho em benchmarks como o ImageNet. Embora modelos densos altamente otimizados como o YOLO26 permaneçam o padrão para detecção de borda em tempo real devido ao seu uso de memória previsível, a pesquisa em MoE continua a expandir as fronteiras da compreensão visual do lado do servidor.

Link to this sectionExemplo de Lógica de Roteamento#

Para entender como a rede de gating seleciona especialistas, considere este exemplo simplificado de PyTorch. Ele demonstra um mecanismo de roteamento que seleciona o especialista mais relevante para uma determinada entrada.

import torch
import torch.nn as nn

# A simple router deciding between 4 experts for input dimension of 10
num_experts = 4
input_dim = 10
router = nn.Linear(input_dim, num_experts)

# Batch of 2 inputs
input_data = torch.randn(2, input_dim)

# Calculate scores and select the top-1 expert for each input
logits = router(input_data)
probs = torch.softmax(logits, dim=-1)
weights, indices = torch.topk(probs, k=1, dim=-1)

print(f"Selected Expert Indices: {indices.flatten().tolist()}")

Link to this sectionDesafios no Treinamento e Implementação#

Apesar das suas vantagens, os modelos MoE introduzem desafios únicos ao training process. Um problema principal é o balanceamento de carga; o roteador pode favorecer alguns especialistas "populares" enquanto ignora outros, levando ao desperdício de capacidade. Para mitigar isso, pesquisadores usam loss functions auxiliares para encorajar o uso igual de todos os especialistas.

Além disso, implementar esses modelos massivos requer configurações de hardware sofisticadas. Como a contagem total de parâmetros é alta (mesmo que os parâmetros ativos sejam baixos), o modelo frequentemente requer VRAM significativa, necessitando de distributed training em múltiplas GPUs. Frameworks como o Microsoft DeepSpeed ajudam a gerenciar o paralelismo necessário para treinar esses sistemas de forma eficiente. Para gerenciar datasets e fluxos de trabalho de treinamento para arquiteturas tão complexas, ferramentas como a Ultralytics Platform fornecem a infraestrutura essencial para registro, visualização e implementação.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática