Yolo 비전 선전
선전
지금 참여하기
용어집

전문가 혼합(MoE)

NLP, 비전, 로봇 공학 등을 위한 확장 가능하고 효율적인 모델을 지원하는 획기적인 AI 아키텍처인 MoE(Mixture of Experts)를 알아보세요.

전문가 혼합(MoE)은 전문화된 전문화된 신경망(NN) 아키텍처입니다. 계산 비용의 비례적인 증가 없이 모델 용량을 효율적으로 확장할 수 있도록 설계되었습니다. 기존의 모든 파라미터가 모든 입력에 대해 활성화되는 기존의 "고밀도" 모델과 달리, MoE 모델은 조건부 계산이라는 조건부 계산이라는 기술을 활용합니다. 이를 통해 시스템은 전체 매개변수 중 일부 하위 집합만 동적으로 활성화할 수 있습니다. 입력 데이터의 특정 요구 사항에 따라 "전문가"로 알려진 매개변수의 일부만 동적으로 활성화할 수 있습니다. 이러한 연구자들은 다음과 같은 대규모 시스템을 훈련할 수 있습니다. 대규모 언어 모델(LLM)과 같은 대규모 시스템을 훈련할 수 있습니다. 수조 개의 파라미터를 보유한 대규모 시스템을 훈련할 수 있습니다. 훨씬 더 작은 모델의 추론 지연 시간과 속도 모델과 같은 대규모 시스템을 훈련할 수 있습니다.

MoE 아키텍처의 핵심 구성 요소

MoE 프레임워크는 표준 고밀도 레이어를 두 가지 주요 구성 요소로 구성된 스파스 MoE 레이어로 대체합니다. 로 구성되어 정보를 처리합니다:

  • 전문가 네트워크: 이들은 다음과 같습니다. 독립적인 하위 네트워크로, 종종 단순한 피드 포워드 네트워크(FFN)로, 데이터 패턴 유형을 전문적으로 처리하는 다양한 유형의 데이터 패턴을 처리하는 데 특화되어 있습니다. 예를 들어 자연어 처리(NLP) 작업에서 한 전문가는 문법 구조에 집중하고 다른 전문가는 관용적 표현을 전문으로 할 수 있습니다.
  • 게이팅 네트워크(라우터): 라우터는 트래픽 컨트롤러 역할을 합니다. 모든 입력 토큰 또는 이미지 패치에 대해, 라우터는 확률 분포를 계산하여 소프트맥스 함수를 통해 확률 분포를 계산하여 특정 입력을 처리하는 데 가장 적합한 전문가를 가장 적합한 전문가를 결정합니다. 일반적으로 데이터를 "Top-K" 전문가(보통 1 또는 2)로 데이터를 라우팅하여 대부분의 모델이 비활성 상태로 유지되도록 함으로써 계산 리소스를 절약합니다.

MoE 대 모델 앙상블

두 아키텍처 모두 여러 하위 모델을 포함하지만 다음을 구분하는 것이 중요합니다. 전문가들의 혼합 모델 앙상블.

  • 모델 앙상블: 다음과 같은 메서드에서는 배깅 또는 부스팅과 같은 방법에서는 여러 개의 개별 모델이 동일한 입력을 동일한 입력을 독립적으로 처리하고, 예측 결과를 집계하여 정확도를 향상시킵니다. 이 접근 방식은 계산 비용이 증가합니다. 모든 추론에 대해 모든 모델이 실행되므로 모델 수에 따라 선형적으로 계산 비용이 증가합니다.
  • 전문가 혼합: MoE는 네트워크를 통해 서로 다른 입력이 서로 다른 경로를 따르는 단일 통합 모델입니다. 서로 다른 경로를 따르는 단일 통합 모델입니다. 선택한 전문가만 실행되므로 모델의 파라미터 수는 매우 크지만 수는 매우 많지만 계산은 매우 드뭅니다. 이를 통해 고밀도 앙상블의 고밀도 앙상블이 따라올 수 없는 높은 확장성을 제공합니다.

실제 애플리케이션

MoE 아키텍처는 특히 다음이 필요한 시나리오에서 최신 고성능 AI의 초석이 되었습니다. 엄청난 지식 보유 및 멀티태스크 기능을 필요로 하는 시나리오에서 특히 그렇습니다.

  1. 고급 언어 생성: 다음과 같은 저명한 기반 모델 미스트랄 AI의 믹스트랄 8x7B와 Google 스위치 트랜스포머, 는 다양한 언어 작업을 처리하기 위해 MoE를 사용합니다. 이러한 모델은 토큰을 전문 전문가에게 라우팅함으로써 다음을 마스터할 수 있습니다. 여러 언어와 코딩 구문을 동시에 마스터할 수 있습니다. 엄청난 훈련 비용 없이도
  2. 확장 가능한 컴퓨터 비전: 컴퓨터 비전(CV) 분야에서 컴퓨터 비전(CV) 분야에서 MoE는 다음과 같은 작업을 위한 다음과 같은 작업을 위한 다목적 백본 물체 감지 및 이미지 분류. An Google Vision MoE(V-MoE)와 같은 MoE 기반 비전 모델은 다음을 수행할 수 있습니다. 특정 전문가를 전담하여 텍스처와 모양과 같은 뚜렷한 시각적 특징을 인식하여 다음과 같은 방대한 데이터 세트의 다음과 같은 대규모 데이터 세트의 ImageNet. 현재 효율적인 모델 같은 YOLO11 와 같은 현재의 효율적인 모델은 최적화된 고밀도 아키텍처에 의존하지만 YOLO26과 같은 향후 R&D 프로젝트는 크기와 속도의 균형을 극대화하기 위해 크기와 속도 간의 균형을 극대화하기 위한 아키텍처 전략을 모색하고 있습니다.

라우팅 로직 예시

라우팅 메커니즘을 이해하는 것이 MoE의 작동 방식을 파악하는 데 중요합니다. 다음은 다음과 같습니다. PyTorch 스니펫은 간단한 게이팅 메커니즘을 보여줍니다. 주어진 입력 배치에 대해 상위 2명의 전문가를 선택합니다.

import torch
import torch.nn as nn

# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128

# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim)  # Batch of 4 inputs

# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)

# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)

print(f"Selected Expert Indices:\n{indices}")

교육의 과제

효율성에도 불구하고 MoE 모델은 교육 과정에 복잡성을 도입합니다. 교육 과정에 복잡성을 도입합니다. 주요 과제는 다음과 같습니다. 로드 밸런싱; 게이팅 네트워크가 모든 것을 소수의 "소수의 '인기 있는' 전문가에게 모든 것을 라우팅하는 상태로 수렴할 수 있습니다. 이를 방지하기 위해 연구자들은 보조적인 보조 손실 함수를 적용하여 보조 손실 함수를 적용합니다. 또한 MoE를 구현하려면 정교한 분산된 교육 인프라를 관리해야 하며 전문가 간의 커뮤니케이션을 관리하기 위한 GPU. 다음과 같은 라이브러리 Microsoft DeepSpeedTensorFlow 메시와 같은 라이브러리는 이러한 병렬화 장애물을 처리하기 위해 특별히 개발되었습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기