Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Mixture of Experts (MoE)

Explora la arquitectura de mezcla de expertos (MoE). Aprende cómo las redes de puertas y las capas dispersas escalan las redes neuronales para IA de alto rendimiento y visión por ordenador.

Mixture of Experts (MoE) es un diseño arquitectónico especializado en aprendizaje profundo que permite a los modelos escalar a tamaños masivos sin un aumento proporcional en el coste computacional. A diferencia de una red neuronal (NN) densa estándar, donde cada parámetro está activo para cada entrada, un modelo MoE emplea una técnica llamada computación condicional. Este enfoque activa dinámicamente solo un pequeño subconjunto de los componentes de la red —denominados "expertos"— basándose en las características específicas de los datos de entrada. Al hacerlo, las arquitecturas MoE permiten la creación de potentes modelos base que pueden poseer billones de parámetros mientras mantienen la latencia de inferencia y la velocidad operativa de sistemas mucho más pequeños.

Link to this sectionMecanismos principales de MoE#

La eficiencia de un modelo Mixture of Experts proviene de reemplazar las capas densas estándar por una capa MoE dispersa. Esta capa generalmente consta de dos elementos principales que trabajan en conjunto para procesar la información de manera eficiente:

  • Los expertos: Son subredes independientes, a menudo redes neuronales prealimentadas (FFNs) simples. Cada experto se especializa en manejar diferentes aspectos de los datos. En el contexto del procesamiento de lenguaje natural (NLP), un experto podría volverse competente en el manejo de la gramática, mientras que otro se centra en la recuperación factual o en la sintaxis de código.
  • La red de enrutamiento (Router): El router actúa como un controlador de tráfico para los datos. Cuando una entrada —como un fragmento de imagen o un token de texto— entra en la capa, el router calcula una puntuación de probabilidad usando una función softmax. Luego dirige esa entrada solo a los expertos "Top-K" (generalmente uno o dos) con las puntuaciones más altas. Esto asegura que el modelo solo gaste energía en los parámetros más relevantes.

Link to this sectionDistinción de los ensamblajes de modelos#

Aunque ambos conceptos implican el uso de múltiples submodelos, es crucial distinguir una Mixture of Experts de un ensamblaje de modelos. En un ensamblaje tradicional, cada modelo del grupo procesa la misma entrada y sus resultados se promedian o se votan para maximizar la precisión. Este enfoque aumenta el coste computacional linealmente con el número de modelos.

Por el contrario, un MoE es un modelo único y unificado donde diferentes entradas atraviesan diferentes rutas. Un MoE disperso busca la escalabilidad y la eficiencia ejecutando solo una fracción de los parámetros totales para cualquier paso de inferencia dado. Esto permite el entrenamiento con grandes cantidades de datos de entrenamiento sin los costes prohibitivos asociados con los ensamblajes densos.

Link to this sectionAplicaciones en el mundo real#

La arquitectura MoE se ha convertido en una piedra angular para la IA moderna de alto rendimiento, particularmente en escenarios que requieren capacidades multitarea y una amplia retención de conocimiento.

  1. Modelos de lenguaje multilingües: Modelos destacados como Mistral AI's Mixtral 8x7B utilizan MoE para destacar en diversas tareas lingüísticas. Al enrutar tokens a expertos especializados, estos sistemas pueden manejar tareas de traducción, resumen y programación dentro de una única estructura de modelo, superando a modelos densos con recuentos similares de parámetros activos.

  2. Visión artificial escalable: En el ámbito de la visión artificial (CV), los investigadores aplican MoE para construir backbones de visión masivos. La arquitectura Vision MoE (V-MoE) demuestra cómo los expertos pueden especializarse en reconocer características visuales distintas, escalando eficazmente el rendimiento en benchmarks como ImageNet. Si bien los modelos densos altamente optimizados como YOLO26 siguen siendo el estándar para la detección en tiempo real en el borde debido a su huella de memoria predecible, la investigación en MoE sigue superando los límites de la comprensión visual del lado del servidor.

Link to this sectionEjemplo de lógica de enrutamiento#

Para entender cómo la red de enrutamiento selecciona a los expertos, considera este ejemplo simplificado de PyTorch. Demuestra un mecanismo de enrutamiento que selecciona al experto más relevante para una entrada dada.

import torch
import torch.nn as nn

# A simple router deciding between 4 experts for input dimension of 10
num_experts = 4
input_dim = 10
router = nn.Linear(input_dim, num_experts)

# Batch of 2 inputs
input_data = torch.randn(2, input_dim)

# Calculate scores and select the top-1 expert for each input
logits = router(input_data)
probs = torch.softmax(logits, dim=-1)
weights, indices = torch.topk(probs, k=1, dim=-1)

print(f"Selected Expert Indices: {indices.flatten().tolist()}")

Link to this sectionDesafíos en el entrenamiento y despliegue#

A pesar de sus ventajas, los modelos MoE introducen desafíos únicos en el proceso de entrenamiento. Un problema principal es el balanceo de carga; el router podría favorecer a unos pocos expertos "populares" mientras ignora a otros, lo que lleva a un desperdicio de capacidad. Para mitigar esto, los investigadores utilizan funciones de pérdida auxiliares para fomentar el uso equitativo de todos los expertos.

Además, desplegar estos modelos masivos requiere configuraciones de hardware sofisticadas. Dado que el recuento total de parámetros es alto (incluso si los parámetros activos son bajos), el modelo a menudo requiere una cantidad significativa de VRAM, lo que hace necesario el entrenamiento distribuido a través de múltiples GPUs. Marcos de trabajo como Microsoft DeepSpeed ayudan a gestionar el paralelismo necesario para entrenar estos sistemas de manera eficiente. Para gestionar datasets y flujos de trabajo de entrenamiento para arquitecturas tan complejas, herramientas como la Plataforma Ultralytics proporcionan la infraestructura esencial para el registro, la visualización y el despliegue.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático