Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình Mixture of Experts (MoE)

Khám phá Mô hình Mixture of Experts (MoE), một kiến trúc AI đột phá cho phép các mô hình có khả năng mở rộng và hiệu quả cho NLP, thị giác máy tính, robot học và hơn thế nữa.

Hỗn hợp Chuyên gia (MoE) là một kiến trúc mạng nơ-ron (NN) chuyên biệt được thiết kế để mở rộng năng lực mô hình một cách hiệu quả mà không làm tăng chi phí tính toán tương ứng. Không giống như các mô hình "dày đặc" truyền thống, trong đó mọi tham số đều hoạt động cho mọi đầu vào, mô hình MoE sử dụng một kỹ thuật gọi là tính toán có điều kiện. Kỹ thuật này cho phép hệ thống chỉ kích hoạt động một tập hợp con nhỏ trong tổng số tham số của nó - được gọi là "chuyên gia" - dựa trên các yêu cầu cụ thể của dữ liệu đầu vào. Bằng cách tận dụng sự kích hoạt thưa thớt này, các nhà nghiên cứu có thể huấn luyện các hệ thống lớn, chẳng hạn như Mô hình Ngôn ngữ Lớn (LLM) , sở hữu hàng nghìn tỷ tham số trong khi vẫn duy trì độ trễ suy luận và tốc độ của một mô hình nhỏ hơn nhiều.

Các thành phần cốt lõi của kiến trúc MoE

Khung MoE thay thế các lớp dày tiêu chuẩn bằng một lớp MoE thưa, bao gồm hai thành phần chính hoạt động song song để xử lý thông tin:

  • Mạng chuyên gia : Đây là các mạng con độc lập, thường là Mạng truyền thẳng (FFN) đơn giản, chuyên xử lý các loại mẫu dữ liệu khác nhau. Ví dụ, trong một tác vụ xử lý ngôn ngữ tự nhiên (NLP) , một chuyên gia có thể tập trung vào cấu trúc ngữ pháp trong khi một chuyên gia khác chuyên về các thành ngữ.
  • Mạng Gating (Bộ định tuyến): Bộ định tuyến hoạt động như một bộ điều khiển lưu lượng. Với mỗi mã thông báo đầu vào hoặc bản vá hình ảnh, nó tính toán phân phối xác suất thông qua hàm softmax để xác định chuyên gia nào phù hợp nhất để xử lý đầu vào cụ thể đó. Nó thường định tuyến dữ liệu đến các chuyên gia "Top-K" (thường là 1 hoặc 2), đảm bảo rằng phần lớn mô hình vẫn ở trạng thái không hoạt động, do đó tiết kiệm tài nguyên tính toán.

MoE so với các nhóm mô hình

Mặc dù cả hai kiến trúc đều bao gồm nhiều mô hình con, nhưng điều quan trọng là phải phân biệt Hỗn hợp chuyên gia với Tập hợp mô hình .

  • Tập hợp mô hình: Trong các phương pháp như bagging hoặc boosting , nhiều mô hình riêng biệt xử lý cùng một đầu vào một cách độc lập và các dự đoán của chúng được tổng hợp để cải thiện độ chính xác . Phương pháp này làm tăng chi phí tính toán theo tuyến tính với số lượng mô hình, vì mỗi mô hình chạy cho mỗi suy luận.
  • Hỗn hợp chuyên gia: MoE là một mô hình thống nhất, duy nhất, trong đó các đầu vào khác nhau đi theo các đường dẫn khác nhau trong mạng. Chỉ các chuyên gia được chọn mới được thực thi, cho phép mô hình có số lượng tham số cực lớn nhưng tính toán lại thưa thớt. Điều này cho phép khả năng mở rộng cao mà các tập hợp dày đặc không thể sánh kịp.

Các Ứng dụng Thực tế

Kiến trúc MoE đã trở thành nền tảng cho AI hiệu suất cao hiện đại, đặc biệt là trong các tình huống đòi hỏi khả năng lưu giữ kiến thức khổng lồ và khả năng thực hiện nhiều tác vụ.

  1. Tạo ngôn ngữ nâng cao: Các mô hình nền tảng nổi bật, chẳng hạn như Mixtral 8x7B của Mistral AI và Google Switch Transformers của 's sử dụng MoE để xử lý các tác vụ ngôn ngữ đa dạng. Bằng cách định tuyến mã thông báo đến các chuyên gia chuyên ngành, các mô hình này có thể nắm vững nhiều ngôn ngữ và cú pháp mã hóa cùng lúc mà không cần chi phí đào tạo quá cao như các mô hình dày đặc có quy mô tương đương.
  2. Thị giác máy tính có khả năng mở rộng: Trong lĩnh vực thị giác máy tính (CV) , MoE được sử dụng để tạo ra các xương sống đa năng cho các tác vụ như phát hiện đối tượng và phân loại hình ảnh. Một mô hình thị giác dựa trên MoE, chẳng hạn như Google Vision MoE (V-MoE) của , có thể phân công các chuyên gia cụ thể để nhận dạng các đặc điểm hình ảnh riêng biệt—như kết cấu so với hình dạng—cải thiện hiệu suất trên các tập dữ liệu lớn như ImageNet . Các mô hình hiệu quả hiện tại như YOLO11 dựa trên kiến trúc dày đặc được tối ưu hóa, nhưng các dự án R&D trong tương lai như YOLO26 đang khám phá các chiến lược kiến trúc tiên tiến để tối đa hóa sự đánh đổi giữa kích thước và tốc độ.

Ví dụ về logic định tuyến

Hiểu được cơ chế định tuyến là chìa khóa để nắm bắt cách thức hoạt động của MoE. Đoạn mã PyTorch sau đây minh họa một cơ chế gating đơn giản hóa, chọn ra 2 chuyên gia hàng đầu cho một lô đầu vào nhất định.

import torch
import torch.nn as nn

# A simple router selecting the top-2 experts out of 8
num_experts = 8
top_k = 2
input_dim = 128

# The gating network predicts expert relevance scores
gate = nn.Linear(input_dim, num_experts)
input_data = torch.randn(4, input_dim)  # Batch of 4 inputs

# Calculate routing probabilities
logits = gate(input_data)
probs = torch.softmax(logits, dim=-1)

# Select the indices of the most relevant experts
weights, indices = torch.topk(probs, top_k, dim=-1)

print(f"Selected Expert Indices:\n{indices}")

Những thách thức trong đào tạo

Mặc dù hiệu quả, các mô hình MoE vẫn tạo ra sự phức tạp trong quá trình đào tạo . Một thách thức chính là cân bằng tải ; mạng lưới gating có thể hội tụ đến trạng thái định tuyến mọi thứ đến chỉ một vài chuyên gia "nổi tiếng", khiến những người khác không được đào tạo đầy đủ. Để ngăn chặn điều này, các nhà nghiên cứu áp dụng các hàm mất mát phụ trợ khuyến khích phân phối đồng đều cho tất cả các chuyên gia. Ngoài ra, việc triển khai MoE đòi hỏi cơ sở hạ tầng đào tạo phân tán tinh vi để quản lý giao tiếp giữa các chuyên gia được phân bổ trên các GPU khác nhau. Các thư viện như Microsoft DeepSpeedTensorFlow Mesh đã được phát triển đặc biệt để giải quyết những rào cản song song hóa này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay