Thuật ngữ

Hỗn hợp các chuyên gia (MoE)

Khám phá Mixture of Experts (MoE), một kiến trúc AI đột phá cho phép tạo ra các mô hình hiệu quả, có khả năng mở rộng cho NLP, thị giác, robot, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Hỗn hợp chuyên gia (MoE) là một kỹ thuật học máy (ML) dựa trên nguyên tắc "chia để trị". Thay vì sử dụng một mô hình đơn khối lớn để xử lý mọi loại dữ liệu hoặc tác vụ, kiến trúc MoE sử dụng nhiều mô hình con chuyên biệt nhỏ hơn được gọi là "chuyên gia". Cơ chế gating xác định chuyên gia nào phù hợp nhất để xử lý một đầu vào nhất định, chỉ kích hoạt những chuyên gia được chọn đó. Cách tiếp cận này cho phép các mô hình mở rộng đáng kể về số lượng tham số trong khi vẫn giữ chi phí tính toán có thể quản lý được trong quá trình suy luận , vì chỉ một phần nhỏ trong tổng số tham số mô hình được sử dụng cho bất kỳ đầu vào cụ thể nào.

Cách thức hoạt động của hỗn hợp chuyên gia

Một mô hình MoE thường bao gồm hai thành phần chính:

  1. Mạng lưới chuyên gia: Đây là nhiều mạng nơ-ron (NN) , thường có cùng hoặc tương tự kiến trúc, mỗi mạng được đào tạo để trở nên thành thạo trong việc xử lý các loại dữ liệu hoặc nhiệm vụ phụ cụ thể trong không gian vấn đề lớn hơn. Ví dụ, trong xử lý ngôn ngữ tự nhiên (NLP) , các chuyên gia khác nhau có thể chuyên về các khía cạnh khác nhau của lĩnh vực ngôn ngữ hoặc kiến thức.
  2. Mạng Gating (Bộ định tuyến): Đây là một mạng nơ-ron khác, thường nhỏ hơn và nhanh hơn, phân tích dữ liệu đầu vào và quyết định chuyên gia nào sẽ xử lý dữ liệu đó. Nó đưa ra trọng số cho biết mức độ liên quan hoặc đóng góp của từng chuyên gia đối với dữ liệu đầu vào đã cho. Trong nhiều triển khai hiện đại, đặc biệt là các mô hình MoE thưa thớt, mạng gating chỉ chọn một số lượng nhỏ (ví dụ: top-k) chuyên gia để kích hoạt.

Đầu ra cuối cùng của lớp MoE thường là sự kết hợp có trọng số của các đầu ra từ các chuyên gia được kích hoạt, dựa trên các trọng số do mạng lưới gating cung cấp. Sự kích hoạt có chọn lọc này, hay "kích hoạt thưa thớt", là chìa khóa cho các lợi ích hiệu quả do MoE mang lại.

Lợi ích của MoE

Kiến trúc MoE mang lại một số lợi thế đáng kể, đặc biệt đối với các mô hình rất lớn:

  • Hiệu quả tính toán: Bằng cách chỉ kích hoạt một tập hợp con các chuyên gia cho mỗi mã thông báo đầu vào hoặc điểm dữ liệu, các mô hình MoE có thể giảm đáng kể tải tính toán ( FLOP ) so với các mô hình dày đặc có kích thước tương tự, trong đó tất cả các tham số được sử dụng cho mọi phép tính. Điều này dẫn đến đào tạo nhanh hơn và độ trễ suy luận thấp hơn.
  • Khả năng mở rộng: MoE cho phép tạo ra các mô hình với số lượng tham số cực lớn (hàng nghìn tỷ trong một số trường hợp) mà không làm tăng chi phí tính toán theo tỷ lệ cho mỗi suy luận. Điều này rất quan trọng để mở rộng ranh giới của học sâu (DL) . Khám phá các khái niệm về khả năng mở rộng mô hình .
  • Hiệu suất: Chuyên môn hóa cho phép các chuyên gia trở nên thành thạo trong lĩnh vực tương ứng của họ, có khả năng dẫn đến độ chính xác và hiệu suất mô hình tổng thể tốt hơn trên các tác vụ phức tạp so với một mô hình dày đặc duy nhất. Đào tạo hiệu quả thường đòi hỏi phải điều chỉnh siêu tham số cẩn thận.

MoE so với các khái niệm liên quan

Điều quan trọng là phải phân biệt MoE với các kỹ thuật khác:

  • Phương pháp Ensemble : Mặc dù cả hai đều sử dụng nhiều mô hình, các ensemble thường huấn luyện một số mô hình độc lập (thường dày đặc) và kết hợp các dự đoán của chúng (ví dụ, bằng cách lấy trung bình). Tất cả các mô hình trong một ensemble thường xử lý mọi đầu vào. Ngược lại, MoE liên quan đến các phần chuyên biệt trong một mô hình lớn hơn duy nhất và chỉ một tập hợp con được kích hoạt cho mỗi đầu vào.
  • Mô hình dày đặc: Các mạng nơ-ron truyền thống, bao gồm Transformers chuẩn và Mạng nơ-ron tích chập (CNN) như những mạng được sử dụng trong các mô hình YOLO Ultralytics , thường "dày đặc". Điều này có nghĩa là hầu hết hoặc tất cả các tham số ( trọng số mô hình ) đều liên quan đến việc xử lý mọi đầu vào. MoE giới thiệu tính thưa thớt để giảm gánh nặng tính toán này.

Ứng dụng trong thế giới thực

Bộ GD&ĐT đã chứng kiến sự áp dụng đáng kể, đặc biệt là trong các mô hình lớn hiện đại:

  1. Mô hình ngôn ngữ lớn (LLM) : Đây là lĩnh vực ứng dụng nổi bật nhất. Các mô hình như GShard và Switch Transformers của Google , cũng như các mô hình nguồn mở như loạt Mixtral của Mistral AI , kết hợp các lớp MoE trong kiến trúc Transformer của chúng. Điều này cho phép chúng đạt được hiệu suất cao với tốc độ suy luận nhanh hơn so với các mô hình dày đặc có kích thước lớn tương đương. Các mô hình này vượt trội trong các tác vụ như tạo văn bảntrả lời câu hỏi .
  2. Computer Vision (CV) : Mặc dù ít phổ biến hơn trong NLP, MoE đang được khám phá trong các mô hình thị giác. Nghiên cứu cho thấy những lợi ích tiềm năng cho các tác vụ như phân loại hình ảnhphát hiện đối tượng bằng cách để các chuyên gia chuyên nhận dạng các đặc điểm hình ảnh khác nhau (ví dụ: kết cấu, hình dạng, danh mục đối tượng cụ thể) hoặc xử lý các điều kiện hình ảnh khác nhau. Điều này trái ngược với các mô hình thị giác dày đặc được tối ưu hóa cao như YOLO11 , đạt được hiệu quả thông qua thiết kế kiến trúc thay vì kích hoạt thưa thớt. Vision Transformers (ViTs) là một lĩnh vực khác mà MoE có thể được áp dụng. Bạn có thể quản lý và đào tạo các mô hình thị giác bằng các nền tảng như Ultralytics HUB .

Thách thức và cân nhắc

Việc triển khai và đào tạo các mô hình MoE hiệu quả liên quan đến những thách thức như đảm bảo cân bằng tải giữa các chuyên gia (ngăn chặn một số chuyên gia bị sử dụng quá mức/thiếu hiệu quả), quản lý chi phí truyền thông trong môi trường đào tạo phân tán (như được thấy trong các khuôn khổ như PyTorchTensorFlow ) và sự phức tạp gia tăng trong quá trình đào tạo . Cũng cần phải cân nhắc cẩn thận các tùy chọn triển khai mô hình .

Đọc tất cả