Khám phá Mixture of Experts (MoE), một kiến trúc AI đột phá cho phép tạo ra các mô hình hiệu quả, có khả năng mở rộng cho NLP, thị giác, robot, v.v.
Hỗn hợp Chuyên gia (MoE) là một kiến trúc mạng nơ-ron (NN) cho phép các mô hình học hiệu quả hơn bằng cách chia bài toán thành các mô hình con chuyên biệt, được gọi là "chuyên gia". Thay vì một mô hình đơn khối xử lý mọi đầu vào, kiến trúc MoE sử dụng "mạng lưới cổng" để định tuyến động từng đầu vào đến các chuyên gia phù hợp nhất. Cách tiếp cận này lấy cảm hứng từ ý tưởng rằng một nhóm chuyên gia, mỗi người giỏi một nhiệm vụ cụ thể, có thể cùng nhau giải quyết các vấn đề phức tạp hiệu quả hơn so với một chuyên gia đa năng. Tính toán có điều kiện này cho phép các mô hình MoE mở rộng quy mô lên một số lượng lớn tham số trong khi vẫn giữ chi phí tính toán cho suy luận ở mức có thể quản lý được, vì chỉ một phần nhỏ của mô hình được sử dụng cho mỗi đầu vào nhất định.
Kiến trúc MoE bao gồm hai thành phần chính:
Mạng lưới chuyên gia : Đây là nhiều mạng nơ-ron nhỏ hơn, thường có kiến trúc giống hệt nhau, được đào tạo để trở thành chuyên gia về các phần dữ liệu khác nhau. Ví dụ, trong một mô hình xử lý ngôn ngữ tự nhiên (NLP) , một chuyên gia có thể chuyên dịch tiếng Anh sang tiếng Pháp, trong khi một chuyên gia khác trở nên thành thạo trong việc tạo mã Python. Mỗi chuyên gia là một thành phần của một hệ thống học sâu lớn hơn.
Mạng Gating : Đây là một mạng nơ-ron nhỏ hoạt động như một bộ điều khiển lưu lượng hoặc bộ định tuyến. Nó tiếp nhận dữ liệu đầu vào và xác định chuyên gia hoặc tổ hợp chuyên gia nào phù hợp nhất để xử lý dữ liệu đó. Mạng Gating đưa ra xác suất cho mỗi chuyên gia, và dựa trên những xác suất này, nó chọn lọc kích hoạt một hoặc một vài chuyên gia để xử lý dữ liệu đầu vào. Kỹ thuật chỉ kích hoạt một tập hợp con của mạng này thường được gọi là kích hoạt thưa thớt và là một khái niệm cốt lõi được trình bày chi tiết trong các bài báo có ảnh hưởng như " Mạng Nơ-ron Lớn Vô Cùng " của Google.
Trong quá trình huấn luyện , cả mạng chuyên gia và mạng gating đều được huấn luyện đồng thời bằng phương pháp lan truyền ngược . Hệ thống không chỉ học cách giải quyết bài toán trong phạm vi chuyên gia mà còn học cách định tuyến đầu vào hiệu quả thông qua mạng gating.
Hỗn hợp chuyên gia thường được so sánh với mô hình tập hợp , nhưng chúng hoạt động theo những nguyên tắc cơ bản khác nhau.
Kiến trúc MoE đã trở nên đặc biệt nổi bật trong việc mở rộng quy mô các mô hình tiên tiến, đặc biệt là trong NLP.
Việc triển khai hiệu quả các mô hình MoE liên quan đến những thách thức như đảm bảo cân bằng tải cho các chuyên gia (ngăn chặn việc một số chuyên gia bị sử dụng quá mức hoặc không đủ), quản lý chi phí truyền thông trong các môi trường đào tạo phân tán (như trong các nền tảng như PyTorch và TensorFlow ), và sự phức tạp ngày càng tăng trong quy trình đào tạo. Việc cân nhắc kỹ lưỡng các tùy chọn triển khai và quản lý mô hình bằng các nền tảng như Ultralytics HUB cũng là điều cần thiết.