Descubra Mixture of Experts (MoE), una arquitectura de IA innovadora que permite modelos escalables y eficientes para el PNL, la visión, la robótica y más.
Una Mezcla de Expertos (MoE) es una arquitectura de red neuronal (NN) que permite a los modelos aprender de forma más eficiente dividiendo un problema entre submodelos especializados, conocidos como "expertos". En lugar de que un único modelo monolítico procese cada entrada, una arquitectura MoE utiliza una "red de gating" para enrutar dinámicamente cada entrada al experto o expertos más relevantes. Este enfoque está inspirado en la idea de que un equipo de especialistas, cada uno sobresaliendo en una tarea específica, puede resolver colectivamente problemas complejos de forma más eficaz que un único generalista. Esta computación condicional permite que los modelos MoE se escalen a un número enorme de parámetros, manteniendo al mismo tiempo el coste computacional para la inferencia manejable, ya que solo una fracción del modelo se utiliza para cualquier entrada dada.
La arquitectura MoE consta de dos componentes principales:
Redes de expertos: Se trata de múltiples redes neuronales más pequeñas, a menudo con arquitecturas idénticas, que se entrenan para convertirse en especialistas en diferentes partes de los datos. Por ejemplo, en un modelo para el procesamiento del lenguaje natural (PNL), un experto podría especializarse en la traducción de inglés a francés, mientras que otro se vuelve competente en la generación de código Python. Cada experto es un componente de un sistema de aprendizaje profundo más grande.
Red de Compuerta: Esta es una pequeña red neuronal que actúa como controlador de tráfico o enrutador. Toma la entrada y determina qué experto o combinación de expertos es el más adecuado para manejarla. La red de compuerta genera probabilidades para cada experto y, basándose en estas, activa selectivamente a uno o algunos expertos para procesar la entrada. Esta técnica de activar solo un subconjunto de la red a menudo se denomina activación dispersa y es un concepto central que se detalla en documentos influyentes como "Redes Neuronales Escandalosamente Grandes" de Google.
Durante el proceso de entrenamiento, tanto las redes expertas como la red de gating se entrenan simultáneamente utilizando la retropropagación. El sistema aprende no solo a resolver la tarea dentro de los expertos, sino también a enrutar las entradas de manera efectiva a través de la red de gating.
La técnica de Mixture of Experts (MoE) a menudo se compara con el model ensembling, pero operan bajo principios fundamentalmente diferentes.
Las arquitecturas MoE se han vuelto particularmente prominentes en el escalado de modelos de última generación, especialmente en el PNL.
La implementación efectiva de modelos MoE implica desafíos como garantizar una carga equilibrada entre los expertos (evitando que algunos expertos estén sobrecargados o infrautilizados), gestionar la sobrecarga de comunicación en entornos de entrenamiento distribuido (como se ve en frameworks como PyTorch y TensorFlow), y la mayor complejidad en el proceso de entrenamiento. También es necesaria una cuidadosa consideración de las opciones de despliegue de modelos y la gestión mediante plataformas como Ultralytics HUB.