Descubra o Mixture of Experts (MoE), uma arquitetura de IA inovadora que permite modelos escaláveis e eficientes para PNL, visão, robótica e muito mais.
Uma mistura de especialistas (MoE) é uma arquitetura de rede neural (NN) que permite que os modelos aprendam de forma mais eficiente, dividindo um problema entre submodelos especializados, conhecidos como "especialistas". Em vez de um modelo único e monolítico que processa todas as entradas, uma arquitetura MoE utiliza uma "rede de gating" para encaminhar dinamicamente cada entrada para o(s) especialista(s) mais relevante(s). Esta abordagem é inspirada na ideia de que uma equipa de especialistas, cada um deles excelente numa tarefa específica, pode resolver coletivamente problemas complexos de forma mais eficaz do que um único generalista. Esta computação condicional permite que os modelos MoE sejam dimensionados para um enorme número de parâmetros, mantendo o custo computacional da inferência controlável, uma vez que apenas uma fração do modelo é utilizada para qualquer entrada.
A arquitetura do MdE é constituída por dois componentes principais:
Redes de especialistas: Trata-se de várias redes neuronais mais pequenas, muitas vezes com arquitecturas idênticas, que são treinadas para se tornarem especialistas em diferentes partes dos dados. Por exemplo, num modelo para processamento de linguagem natural (PNL), um perito pode especializar-se na tradução de inglês para francês, enquanto outro se torna proficiente na geração de código Python. Cada especialista é um componente de um sistema de aprendizagem profunda maior.
Rede de Gating: Trata-se de uma pequena rede neuronal que actua como controlador de tráfego ou router. Ela recebe a entrada e determina qual especialista ou combinação de especialistas é mais adequado para lidar com ela. A rede gating produz probabilidades para cada perito e, com base nelas, ativa seletivamente um ou alguns peritos para processar a entrada. Esta técnica de ativação de apenas um subconjunto da rede é frequentemente designada por ativação esparsa e é um conceito central detalhado em documentos influentes como"Outrageously Large Neural Networks" da Google.
Durante o processo de formação, as redes de especialistas e a rede de gating são treinadas simultaneamente utilizando a retropropagação. O sistema aprende não só a resolver a tarefa com os especialistas, mas também a encaminhar as entradas de forma eficaz através da rede de gating.
A Mistura de Peritos é frequentemente comparada com o conjunto de modelos, mas funcionam com base em princípios fundamentalmente diferentes.
As arquitecturas MoE tornaram-se particularmente proeminentes na expansão dos modelos mais avançados, especialmente em PNL.
A implementação eficaz de modelos MoE envolve desafios como garantir uma carga equilibrada entre peritos (evitando que alguns peritos sejam sobre ou subutilizados), gerir a sobrecarga de comunicação em ambientes de formação distribuídos (como se vê em estruturas como PyTorch e TensorFlow) e o aumento da complexidade no processo de formação. Também é necessário considerar cuidadosamente as opções de implementação e gestão de modelos utilizando plataformas como o Ultralytics HUB.