Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Mixture of Experts (MoE)

Изучите архитектуру Mixture of Experts (MoE). Узнайте, как сети гейтинга и разреженные слои масштабируют нейронные сети для высокопроизводительного искусственного интеллекта и компьютерного зрения.

Mixture of Experts (MoE) — это специализированная архитектура в области глубокого обучения, которая позволяет масштабировать модели до огромных размеров без пропорционального увеличения вычислительных затрат. В отличие от стандартной плотной нейронной сети (NN), где каждый параметр активен для каждого входа, модель MoE использует технику, называемую условным вычислением. Этот подход динамически активирует только небольшую подгруппу компонентов сети, называемых «экспертами», на основе конкретных характеристик входных данных. Таким образом, архитектуры MoE позволяют создавать мощные базовые модели, которые могут иметь триллионы параметров, сохраняя при этом задержку вывода и операционную скорость гораздо более компактных систем.

Основные механизмы MoE

Эффективность модели Mixture of Experts (смесь экспертов) обусловлена заменой стандартных плотных слоев на разреженный слой MoE. Этот слой обычно состоит из двух основных элементов, которые работают в тандеме для эффективной обработки информации:

  • Эксперты: это независимые подсети, часто представляющие собой простые нейронные сети с прямой передачей (FFN). Каждый эксперт специализируется на обработке различных аспектов данных. В контексте обработки естественного языка (NLP) один эксперт может стать специалистом по грамматике, а другой сосредоточиться на поиске фактов или синтаксисе кода .
  • Сеть шлюзов (маршрутизатор): Маршрутизатор действует как контроллер трафика для данных. Когда входные данные, такие как фрагмент изображения или текстовый токен, поступают в слой, маршрутизатор вычисляет вероятность с помощью функции softmax. Затем он направляет эти входные данные только к «Top-K» экспертам (обычно одному или двум) с самыми высокими оценками. Это гарантирует, что модель тратит энергию только на наиболее релевантные параметры.

Отличие от модельных ансамблей

Хотя обе концепции предполагают использование нескольких подмоделей, очень важно отличать смесь экспертов от модельного ансамбля. В традиционном ансамбле каждая модель в группе обрабатывает один и тот же входной сигнал, а их результаты усредняются или подвергаются голосованию для максимального повышения точности. Этот подход увеличивает вычислительные затраты линейно по отношению к количеству моделей.

Напротив, MoE представляет собой единую унифицированную модель, в которой различные входные данные проходят по разным путям. Редкая MoE нацелена на масштабируемость и эффективность за счет запуска только части от общего количества параметров для любого данного шага вывода. Это позволяет проводить обучение на огромных объемах учебных данных без непомерных затрат, связанных с плотными ансамблями.

Применение в реальном мире

Архитектура MoE стала краеугольным камнем современного высокопроизводительного ИИ, особенно в сценариях, требующих многозадачности и широкого сохранения знаний.

  1. Многоязычные языковые модели: такие известные модели, как Mixtral 8x7B от Mistral AI, используют MoE для выполнения различных языковых задач. Перенаправляя токены специализированным экспертам, эти системы могут обрабатывать задачи перевода, резюмирования и кодирования в рамках одной модели, превосходя по производительности плотные модели с аналогичным количеством активных параметров.
  2. Масштабируемое компьютерное зрение: В области компьютерного зрения (CV) исследователи применяют MoE для создания массивных базовых структур зрительного восприятия. Архитектура Vision MoE (V-MoE) демонстрирует, как эксперты могут специализироваться на распознавании отдельных визуальных характеристик, эффективно масштабируя производительность на таких тестовых наборах, как ImageNet. Хотя высокооптимизированные плотные модели, такие как YOLO26, остаются стандартом для обнаружения краев в реальном времени благодаря предсказуемому объему занимаемой памяти, исследования MoE продолжают раздвигать границы серверного визуального понимания.

Пример логики маршрутизации

Чтобы понять, как сеть гейтинга выбирает экспертов, рассмотрим эту упрощенную PyTorch . Он демонстрирует механизм маршрутизации, который выбирает наиболее подходящего эксперта для данного входа.

import torch
import torch.nn as nn

# A simple router deciding between 4 experts for input dimension of 10
num_experts = 4
input_dim = 10
router = nn.Linear(input_dim, num_experts)

# Batch of 2 inputs
input_data = torch.randn(2, input_dim)

# Calculate scores and select the top-1 expert for each input
logits = router(input_data)
probs = torch.softmax(logits, dim=-1)
weights, indices = torch.topk(probs, k=1, dim=-1)

print(f"Selected Expert Indices: {indices.flatten().tolist()}")

Проблемы в области обучения и развертывания

Несмотря на свои преимущества, модели MoE создают уникальные проблемы для процесса обучения. Основная проблема заключается в балансировке нагрузки: маршрутизатор может отдавать предпочтение нескольким «популярным» экспертам, игнорируя других, что приводит к неэффективному использованию ресурсов. Чтобы смягчить эту проблему, исследователи используют вспомогательные функции потерь, чтобы стимулировать равное использование всех экспертов.

Кроме того, для развертывания этих массивных моделей требуются сложные аппаратные конфигурации. Поскольку общее количество параметров высокое (даже если активных параметров мало), модели часто требуется значительный объем VRAM, что необходимо для распределенного обучения на нескольких графических процессорах. Такие фреймворки, как Microsoft , помогают управлять параллелизмом, необходимым для эффективного обучения этих систем. Для управления наборами данных и рабочими процессами обучения для таких сложных архитектур инструменты, такие как Ultralytics , предоставляют необходимую инфраструктуру для регистрации, визуализации и развертывания.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас