용어집

전문가 혼합(MoE)

자연어 처리, 비전, 로봇 공학 등을 위한 확장 가능하고 효율적인 모델을 지원하는 획기적인 AI 아키텍처인 전문가 혼합(MoE)에 대해 알아보세요.

전문가 혼합(MoE)은 "전문가"로 알려진 전문화된 하위 모델 간에 문제를 분할하여 모델이 보다 효율적으로 학습할 수 있도록 하는 신경망(NN) 아키텍처입니다. 단일 모놀리식 모델이 모든 입력을 처리하는 대신, MoE 아키텍처는 "게이팅 네트워크"를 사용하여 각 입력을 가장 관련성이 높은 전문가에게 동적으로 라우팅합니다. 이 접근 방식은 각각 특정 업무에 뛰어난 전문가들로 구성된 팀이 한 명의 제너럴리스트보다 복잡한 문제를 더 효과적으로 해결할 수 있다는 아이디어에서 영감을 얻었습니다. 이러한 조건부 계산을 사용하면 주어진 입력에 대해 모델의 일부만 사용되므로 추론에 필요한 계산 비용을 관리 가능한 수준으로 유지하면서 엄청난 수의 매개변수로 확장할 수 있습니다.

전문가 혼합의 작동 방식

MoE 아키텍처는 두 가지 주요 구성 요소로 이루어져 있습니다:

  1. 전문가 네트워크: 전문가 네트워크는 동일한 아키텍처를 가진 여러 개의 작은 신경망으로, 데이터의 여러 부분에 대해 전문가가 되도록 훈련된 네트워크입니다. 예를 들어 자연어 처리(NLP) 모델에서 한 전문가는 영어를 프랑스어로 번역하는 데 특화되어 있고, 다른 전문가는 Python 코드 생성에 능숙해질 수 있습니다. 각 전문가는 더 큰 딥러닝 시스템의 구성 요소입니다.

  2. 게이팅 네트워크: 트래픽 컨트롤러 또는 라우터 역할을 하는 소규모 신경망입니다. 입력을 받아 이를 처리하는 데 가장 적합한 전문가 또는 전문가 조합을 결정합니다. 게이팅 네트워크는 각 전문가에 대한 확률을 출력하고 이를 기반으로 한 명 또는 몇 명의 전문가를 선택적으로 활성화하여 입력을 처리합니다. 네트워크의 하위 집합만 활성화하는 이 기술을 흔히 희소 활성화라고 하며, Google의"엄청나게 큰 신경망"과 같은 영향력 있는 논문에서 자세히 설명하는 핵심 개념입니다.

훈련 과정에서 전문가 네트워크와 게이팅 네트워크는 모두 역전파를 사용하여 동시에 훈련됩니다. 시스템은 전문가 네트워크 내에서 작업을 해결하는 방법뿐만 아니라 게이팅 네트워크를 통해 입력을 효과적으로 라우팅하는 방법도 학습합니다.

MoE 대 모델 앙상블

전문가 혼합은 종종 모델 앙상블과 비교되지만 근본적으로 다른 원리로 작동합니다.

  • 앙상블 방법: 표준 앙상블에서는 여러 개의 서로 다른 모델이 독립적으로(또는 서로 다른 데이터 하위 집합에 대해) 학습됩니다. 추론의 경우, 모든 모델이 입력을 처리하고 그 결과를 결합(예: 투표 또는 평균화)하여 최종 결과를 생성합니다. 이렇게 하면 견고성과 정확성이 향상되지만 앙상블의 모든 모델을 실행해야 하므로 계산 비용이 크게 증가합니다.
  • 전문가들의 혼합: MoE에서는 모든 전문가가 하나의 큰 모델에 속해 있으며 함께 훈련됩니다. 주어진 입력에 대해 게이팅 네트워크는 실행할 전문가 몇 명만 선택합니다. 따라서 모델 파라미터의 대부분이 각 특정 작업에 사용되지 않기 때문에 동일한 크기의 고밀도 모델이나 앙상블보다 추론 속도가 훨씬 빠르고 계산 효율이 높습니다.

실제 애플리케이션

MoE 아키텍처는 특히 NLP에서 최첨단 모델을 확장하는 데 특히 두드러지게 사용되고 있습니다.

  1. 대규모 언어 모델(LLM): MoE는 가장 강력한 LLM의 기반이 되는 핵심 기술입니다. 예를 들어, Mistral AI의 Mixtral 8x7B와 Google의 Switch Transformers는 MoE를 사용하여 수천억 또는 수조 개의 매개변수로 구성된 모델을 생성합니다. 이러한 방대한 규모 덕분에 추론에 엄청난 비용을 들이지 않고도 지식과 추론 능력을 향상시킬 수 있습니다.
  2. 컴퓨터 비전: 트랜스포머 기반 LLM에서 더 일반적이지만, MoE 개념은 컴퓨터 비전(CV)에도 적용할 수 있습니다. 매우 다양한 카테고리의 복잡한 이미지 분류 작업의 경우, MoE 모델에는 동물, 차량, 건물 식별에 특화된 전문가가 있을 수 있습니다. 게이팅 네트워크가 먼저 이미지를 분석하고 적절한 전문가를 활성화하여 보다 효율적인 처리를 유도할 수 있습니다. 이 접근 방식은 Ultralytics YOLO11과 같은 고급 모델에서 살펴볼 수 있습니다.

도전 과제 및 고려 사항

MoE 모델을 효과적으로 구현하려면 전문가 간 부하 균형 보장(일부 전문가가 과도하게 활용되거나 과소 활용되는 것을 방지), 분산된 교육 환경에서의 통신 오버헤드 관리( PyTorchTensorFlow와 같은 프레임워크에서 볼 수 있듯이), 교육 프로세스의 복잡성 증가 등의 과제가 수반됩니다. 또한, 모델 배포 옵션과 Ultralytics HUB와 같은 플랫폼을 사용한 관리에 대한 신중한 고려가 필요합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨