Glosario

Mezcla de expertos (ME)

Descubra Mixture of Experts (MoE), una innovadora arquitectura de IA que permite modelos escalables y eficientes para PNL, visión, robótica y mucho más.

Una Mezcla de Expertos (MoE) es una arquitectura de red neuronal (NN ) que permite a los modelos aprender de forma más eficiente dividiendo un problema entre submodelos especializados, conocidos como "expertos". En lugar de que un único modelo monolítico procese cada entrada, una arquitectura MoE utiliza una "red de compuerta" para dirigir dinámicamente cada entrada al experto o expertos más relevantes. Este planteamiento se inspira en la idea de que un equipo de especialistas, cada uno de los cuales destaca en una tarea específica, puede resolver colectivamente problemas complejos con más eficacia que un solo generalista. Este cálculo condicional permite a los modelos MoE escalar hasta un enorme número de parámetros, manteniendo al mismo tiempo un coste computacional manejable para la inferencia, ya que sólo se utiliza una fracción del modelo para cualquier entrada dada.

Cómo funciona la mezcla de expertos

La arquitectura del ME consta de dos componentes principales:

  1. Redes de expertos: Se trata de múltiples redes neuronales más pequeñas, a menudo con arquitecturas idénticas, que se entrenan para convertirse en especialistas en distintas partes de los datos. Por ejemplo, en un modelo para el procesamiento del lenguaje natural (PLN), un experto podría especializarse en la traducción del inglés al francés, mientras que otro se vuelve competente en la generación de código Python. Cada experto es un componente de un sistema de aprendizaje profundo más amplio.

  2. Red Gating: Se trata de una pequeña red neuronal que actúa como controlador de tráfico o enrutador. Toma la información y determina qué experto o combinación de expertos es el más adecuado para tratarla. La red de compuerta genera probabilidades para cada experto y, basándose en ellas, activa selectivamente uno o varios expertos para procesar la entrada. Esta técnica de activar sólo un subconjunto de la red suele denominarse activación dispersa y es un concepto básico que se detalla en artículos influyentes como"Outrageously Large Neural Networks" de Google.

Durante el proceso de entrenamiento, tanto las redes de expertos como la red de compuertas se entrenan simultáneamente mediante retropropagación. El sistema aprende no sólo a resolver la tarea con los expertos, sino también a dirigir las entradas de forma eficaz a través de la red de compuertas.

MoE vs. Conjunto de modelos

La mezcla de expertos se compara a menudo con el ensamblaje de modelos, pero funcionan con principios fundamentalmente distintos.

  • Métodos de conjunto: En un conjunto estándar, varios modelos diferentes se entrenan de forma independiente (o en subconjuntos diferentes de datos). Para la inferencia, todos los modelos procesan los datos de entrada y sus resultados se combinan (por ejemplo, mediante votación o promediación) para producir un resultado final. Esto mejora la robustez y la precisión, pero aumenta significativamente el coste computacional, ya que cada modelo del conjunto debe ser ejecutado.
  • Mezcla de expertos: En una ME, todos los expertos forman parte de un único modelo más amplio y se entrenan juntos. Para cualquier dato de entrada, la red de compuerta selecciona sólo unos pocos expertos. Esto hace que la inferencia sea mucho más rápida y eficiente desde el punto de vista informático que un modelo denso de tamaño equivalente o un conjunto, ya que la mayoría de los parámetros del modelo no se utilizan para cada tarea específica.

Aplicaciones reales

Las arquitecturas MoE han cobrado especial protagonismo en la ampliación de los modelos más avanzados, sobre todo en PNL.

  1. Grandes modelos lingüísticos (LLM): MoE es la tecnología clave detrás de algunos de los LLM más potentes. Por ejemplo, Mixtral 8x7B de Mistral AI y Switch Transformers de Google utilizan MoE para crear modelos con cientos de miles de millones o incluso billones de parámetros. Esta escala masiva mejora sus capacidades de conocimiento y razonamiento sin que la inferencia resulte prohibitivamente cara.
  2. Visión por ordenador: Aunque es más común en los LLM basados en transformadores, el concepto de MoE también es aplicable a la visión por ordenador (CV). Para una tarea compleja de clasificación de imágenes con categorías muy diversas, un modelo MoE podría tener expertos especializados en la identificación de animales, vehículos y edificios. La red de compuertas analizaría primero la imagen y activaría al experto adecuado, lo que conduciría a un procesamiento más eficiente. Este enfoque podría explorarse en modelos avanzados como Ultralytics YOLO11.

Retos y consideraciones

La implementación eficaz de los modelos MoE implica retos como garantizar una carga equilibrada entre los expertos (evitando que algunos expertos estén sobreutilizados o infrautilizados), gestionar la sobrecarga de comunicación en entornos de formación distribuidos (como se observa en marcos como PyTorch y TensorFlow) y la mayor complejidad del proceso de formación. También es necesario considerar cuidadosamente las opciones de despliegue y gestión de modelos mediante plataformas como Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles