Glosario

Mixture of Experts (MoE)

Descubra Mixture of Experts (MoE), una arquitectura de IA innovadora que permite modelos escalables y eficientes para el PNL, la visión, la robótica y más.

Una Mezcla de Expertos (MoE) es una arquitectura de red neuronal (NN) que permite a los modelos aprender de forma más eficiente dividiendo un problema entre submodelos especializados, conocidos como "expertos". En lugar de que un único modelo monolítico procese cada entrada, una arquitectura MoE utiliza una "red de gating" para enrutar dinámicamente cada entrada al experto o expertos más relevantes. Este enfoque está inspirado en la idea de que un equipo de especialistas, cada uno sobresaliendo en una tarea específica, puede resolver colectivamente problemas complejos de forma más eficaz que un único generalista. Esta computación condicional permite que los modelos MoE se escalen a un número enorme de parámetros, manteniendo al mismo tiempo el coste computacional para la inferencia manejable, ya que solo una fracción del modelo se utiliza para cualquier entrada dada.

¿Cómo funciona Mixture of Experts?

La arquitectura MoE consta de dos componentes principales:

Redes de expertos: Se trata de múltiples redes neuronales más pequeñas, a menudo con arquitecturas idénticas, que se entrenan para convertirse en especialistas en diferentes partes de los datos. Por ejemplo, en un modelo para el procesamiento del lenguaje natural (PNL), un experto podría especializarse en la traducción de inglés a francés, mientras que otro se vuelve competente en la generación de código Python. Cada experto es un componente de un sistema de aprendizaje profundo más grande.
Red de Compuerta: Esta es una pequeña red neuronal que actúa como controlador de tráfico o enrutador. Toma la entrada y determina qué experto o combinación de expertos es el más adecuado para manejarla. La red de compuerta genera probabilidades para cada experto y, basándose en estas, activa selectivamente a uno o algunos expertos para procesar la entrada. Esta técnica de activar solo un subconjunto de la red a menudo se denomina activación dispersa y es un concepto central que se detalla en documentos influyentes como "Redes Neuronales Escandalosamente Grandes" de Google.

Durante el proceso de entrenamiento, tanto las redes expertas como la red de gating se entrenan simultáneamente utilizando la retropropagación. El sistema aprende no solo a resolver la tarea dentro de los expertos, sino también a enrutar las entradas de manera efectiva a través de la red de gating.

MoE vs. Ensamble de Modelos

La técnica de Mixture of Experts (MoE) a menudo se compara con el model ensembling, pero operan bajo principios fundamentalmente diferentes.

Métodos de conjunto: En un conjunto estándar, se entrenan varios modelos diferentes de forma independiente (o en diferentes subconjuntos de datos). Para la inferencia, todos los modelos procesan la entrada y sus salidas se combinan (por ejemplo, mediante votación o promediado) para producir un resultado final. Esto mejora la robustez y la precisión, pero aumenta significativamente el costo computacional, ya que cada modelo en el conjunto debe ejecutarse.
Mezcla de Expertos: En un MoE, todos los expertos son parte de un único modelo más grande y se entrenan juntos. Para cualquier entrada dada, la red de gating selecciona solo unos pocos expertos para ejecutar. Esto hace que la inferencia sea mucho más rápida y computacionalmente eficiente que un modelo denso de tamaño equivalente o un ensamble, ya que la mayoría de los parámetros del modelo permanecen sin utilizar para cada tarea específica.

Aplicaciones en el mundo real

Las arquitecturas MoE se han vuelto particularmente prominentes en el escalado de modelos de última generación, especialmente en el PNL.

Modelos de Lenguaje Grandes (LLMs): MoE es la tecnología clave detrás de algunos de los LLMs más potentes. Por ejemplo, Mixtral 8x7B de Mistral AI y los Switch Transformers de Google utilizan MoE para crear modelos con cientos de miles de millones o incluso billones de parámetros. Esta escala masiva mejora sus capacidades de conocimiento y razonamiento sin hacer que la inferencia sea prohibitivamente costosa.
Visión artificial: Aunque es más común en los LLM basados en Transformers, el concepto de MoE también es aplicable a la visión artificial (CV). Para una tarea compleja de clasificación de imágenes con categorías muy diversas, un modelo MoE podría tener expertos especializados en la identificación de animales, vehículos y edificios. La red de gating analizaría primero la imagen y activaría al experto apropiado, lo que conduciría a un procesamiento más eficiente. Este enfoque podría explorarse en modelos avanzados como Ultralytics YOLO11.

Desafíos y consideraciones

La implementación efectiva de modelos MoE implica desafíos como garantizar una carga equilibrada entre los expertos (evitando que algunos expertos estén sobrecargados o infrautilizados), gestionar la sobrecarga de comunicación en entornos de entrenamiento distribuido (como se ve en frameworks como PyTorch y TensorFlow), y la mayor complejidad en el proceso de entrenamiento. También es necesaria una cuidadosa consideración de las opciones de despliegue de modelos y la gestión mediante plataformas como Ultralytics HUB.

Mixture of Experts (MoE)

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

¿Cómo funciona Mixture of Experts?

MoE vs. Ensamble de Modelos

Aplicaciones en el mundo real

Desafíos y consideraciones

Leer más en esta categoría

De los bits a los qubits: Cómo la optimización cuántica está cambiando la IA

Guía rápida para principiantes sobre cómo entrenar un modelo de IA

Desde Dubai con ideas: Principales conclusiones de la Cumbre GDG MENA-T 2025

Únete a la comunidad de Ultralytics