Thuật ngữ

Hỗn hợp các chuyên gia (MoE)

Khám phá Mixture of Experts (MoE), một kiến trúc AI đột phá cho phép tạo ra các mô hình hiệu quả, có khả năng mở rộng cho NLP, thị giác, robot, v.v.

Hỗn hợp Chuyên gia (MoE) là một kiến trúc mạng nơ-ron (NN) cho phép các mô hình học hiệu quả hơn bằng cách chia bài toán thành các mô hình con chuyên biệt, được gọi là "chuyên gia". Thay vì một mô hình đơn khối xử lý mọi đầu vào, kiến trúc MoE sử dụng "mạng lưới cổng" để định tuyến động từng đầu vào đến các chuyên gia phù hợp nhất. Cách tiếp cận này lấy cảm hứng từ ý tưởng rằng một nhóm chuyên gia, mỗi người giỏi một nhiệm vụ cụ thể, có thể cùng nhau giải quyết các vấn đề phức tạp hiệu quả hơn so với một chuyên gia đa năng. Tính toán có điều kiện này cho phép các mô hình MoE mở rộng quy mô lên một số lượng lớn tham số trong khi vẫn giữ chi phí tính toán cho suy luận ở mức có thể quản lý được, vì chỉ một phần nhỏ của mô hình được sử dụng cho mỗi đầu vào nhất định.

Cách thức hoạt động của hỗn hợp chuyên gia

Kiến trúc MoE bao gồm hai thành phần chính:

  1. Mạng lưới chuyên gia : Đây là nhiều mạng nơ-ron nhỏ hơn, thường có kiến trúc giống hệt nhau, được đào tạo để trở thành chuyên gia về các phần dữ liệu khác nhau. Ví dụ, trong một mô hình xử lý ngôn ngữ tự nhiên (NLP) , một chuyên gia có thể chuyên dịch tiếng Anh sang tiếng Pháp, trong khi một chuyên gia khác trở nên thành thạo trong việc tạo mã Python. Mỗi chuyên gia là một thành phần của một hệ thống học sâu lớn hơn.

  2. Mạng Gating : Đây là một mạng nơ-ron nhỏ hoạt động như một bộ điều khiển lưu lượng hoặc bộ định tuyến. Nó tiếp nhận dữ liệu đầu vào và xác định chuyên gia hoặc tổ hợp chuyên gia nào phù hợp nhất để xử lý dữ liệu đó. Mạng Gating đưa ra xác suất cho mỗi chuyên gia, và dựa trên những xác suất này, nó chọn lọc kích hoạt một hoặc một vài chuyên gia để xử lý dữ liệu đầu vào. Kỹ thuật chỉ kích hoạt một tập hợp con của mạng này thường được gọi là kích hoạt thưa thớt và là một khái niệm cốt lõi được trình bày chi tiết trong các bài báo có ảnh hưởng như " Mạng Nơ-ron Lớn Vô Cùng " của Google.

Trong quá trình huấn luyện , cả mạng chuyên gia và mạng gating đều được huấn luyện đồng thời bằng phương pháp lan truyền ngược . Hệ thống không chỉ học cách giải quyết bài toán trong phạm vi chuyên gia mà còn học cách định tuyến đầu vào hiệu quả thông qua mạng gating.

MoE so với Model Ensemble

Hỗn hợp chuyên gia thường được so sánh với mô hình tập hợp , nhưng chúng hoạt động theo những nguyên tắc cơ bản khác nhau.

  • Phương pháp tổng hợp : Trong một tổng hợp chuẩn, nhiều mô hình khác nhau được huấn luyện độc lập (hoặc trên các tập dữ liệu con khác nhau). Để suy luận, tất cả các mô hình xử lý dữ liệu đầu vào và kết hợp đầu ra của chúng (ví dụ, thông qua bỏ phiếu hoặc tính trung bình) để tạo ra kết quả cuối cùng. Điều này cải thiện độ tin cậy và độ chính xác nhưng làm tăng đáng kể chi phí tính toán, vì mọi mô hình trong tổng hợp đều phải được thực thi.
  • Hỗn hợp chuyên gia : Trong một MoE, tất cả các chuyên gia đều là một phần của một mô hình lớn hơn, duy nhất và được đào tạo cùng nhau. Với bất kỳ đầu vào nào, mạng lưới gating chỉ chọn một vài chuyên gia để chạy. Điều này giúp suy luận nhanh hơn và hiệu quả tính toán hơn nhiều so với một mô hình dày đặc có kích thước tương đương hoặc một tập hợp, vì phần lớn các tham số của mô hình vẫn chưa được sử dụng cho từng tác vụ cụ thể.

Ứng dụng trong thế giới thực

Kiến trúc MoE đã trở nên đặc biệt nổi bật trong việc mở rộng quy mô các mô hình tiên tiến, đặc biệt là trong NLP.

  1. Mô hình Ngôn ngữ Lớn (LLM) : MoE là công nghệ then chốt đằng sau một số LLM mạnh mẽ nhất. Ví dụ, Mixtral 8x7B của Mistral AI và Switch Transformers của Google sử dụng MoE để tạo ra các mô hình với hàng trăm tỷ, thậm chí hàng nghìn tỷ tham số. Quy mô khổng lồ này nâng cao kiến thức và khả năng suy luận của chúng mà không khiến việc suy luận trở nên quá tốn kém.
  2. Thị giác Máy tính : Mặc dù phổ biến hơn trong các chương trình Thạc sĩ Luật (LLM) dựa trên Transformer , khái niệm MoE cũng có thể áp dụng cho thị giác máy tính (CV) . Đối với một tác vụ phân loại hình ảnh phức tạp với các danh mục rất đa dạng, một mô hình MoE có thể có các chuyên gia chuyên nhận dạng động vật, phương tiện và tòa nhà. Mạng lưới cổng sẽ phân tích hình ảnh trước và kích hoạt chuyên gia phù hợp, dẫn đến quá trình xử lý hiệu quả hơn. Phương pháp này có thể được khám phá trong các mô hình tiên tiến như Ultralytics YOLO11 .

Thách thức và cân nhắc

Việc triển khai hiệu quả các mô hình MoE liên quan đến những thách thức như đảm bảo cân bằng tải cho các chuyên gia (ngăn chặn việc một số chuyên gia bị sử dụng quá mức hoặc không đủ), quản lý chi phí truyền thông trong các môi trường đào tạo phân tán (như trong các nền tảng như PyTorchTensorFlow ), và sự phức tạp ngày càng tăng trong quy trình đào tạo. Việc cân nhắc kỹ lưỡng các tùy chọn triển khai và quản lý mô hình bằng các nền tảng như Ultralytics HUB cũng là điều cần thiết.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard