Bảng chú giải thuật ngữ

Mô hình Mixture of Experts (MoE)

Khám phá Mô hình Mixture of Experts (MoE), một kiến trúc AI đột phá cho phép các mô hình có khả năng mở rộng và hiệu quả cho NLP, thị giác máy tính, robot học và hơn thế nữa.

Mixture of Experts (MoE) là một kiến trúc mạng nơ-ron (NN) cho phép các mô hình học hiệu quả hơn bằng cách chia một bài toán cho các mô hình con chuyên biệt, được gọi là "chuyên gia". Thay vì một mô hình nguyên khối duy nhất xử lý mọi đầu vào, kiến trúc MoE sử dụng một "mạng cổng" để định tuyến động mỗi đầu vào đến (các) chuyên gia phù hợp nhất. Cách tiếp cận này được lấy cảm hứng từ ý tưởng rằng một nhóm các chuyên gia, mỗi người vượt trội trong một nhiệm vụ cụ thể, có thể cùng nhau giải quyết các vấn đề phức tạp hiệu quả hơn một chuyên gia tổng quát duy nhất. Tính toán có điều kiện này cho phép các mô hình MoE mở rộng đến một số lượng tham số khổng lồ trong khi vẫn giữ chi phí tính toán cho suy luận có thể quản lý được, vì chỉ một phần của mô hình được sử dụng cho bất kỳ đầu vào nào.

Cách thức hoạt động của Mô hình Mixture of Experts

Kiến trúc MoE bao gồm hai thành phần chính:

Mạng lưới chuyên gia (Expert Networks): Đây là nhiều mạng nơ-ron nhỏ hơn, thường có kiến trúc giống hệt nhau, được huấn luyện để trở thành chuyên gia về các phần khác nhau của dữ liệu. Ví dụ: trong một mô hình cho xử lý ngôn ngữ tự nhiên (NLP), một chuyên gia có thể chuyên về dịch tiếng Anh sang tiếng Pháp, trong khi một chuyên gia khác trở nên thành thạo trong việc tạo mã Python. Mỗi chuyên gia là một thành phần của một hệ thống học sâu lớn hơn.
Mạng Điều Khiển (Gating Network): Đây là một mạng nơ-ron nhỏ hoạt động như một bộ điều khiển lưu lượng hoặc bộ định tuyến. Nó lấy đầu vào và xác định chuyên gia hoặc sự kết hợp các chuyên gia nào phù hợp nhất để xử lý nó. Mạng điều khiển xuất ra xác suất cho mỗi chuyên gia và dựa trên những điều này, nó chọn lọc kích hoạt một hoặc một vài chuyên gia để xử lý đầu vào. Kỹ thuật chỉ kích hoạt một tập hợp con của mạng này thường được gọi là kích hoạt thưa thớt và là một khái niệm cốt lõi được trình bày chi tiết trong các bài báo có ảnh hưởng như "Mạng Nơ-ron Lớn Đến Mức Quá Khủng Khiếp" của Google.

Trong quá trình huấn luyện (training process), cả mạng chuyên gia và mạng điều phối đều được huấn luyện đồng thời bằng cách sử dụng lan truyền ngược (backpropagation). Hệ thống học không chỉ cách giải quyết nhiệm vụ trong các mạng chuyên gia mà còn học cách định tuyến đầu vào một cách hiệu quả thông qua mạng điều phối.

MoE so với Ensemble mô hình

Mixture of Experts thường được so sánh với model ensembling, nhưng chúng hoạt động dựa trên các nguyên tắc hoàn toàn khác nhau.

Phương pháp tập hợp (Ensemble Methods): Trong một tập hợp tiêu chuẩn, nhiều mô hình khác nhau được huấn luyện độc lập (hoặc trên các tập hợp con dữ liệu khác nhau). Để suy luận, tất cả các mô hình xử lý đầu vào và đầu ra của chúng được kết hợp (ví dụ: thông qua bỏ phiếu hoặc tính trung bình) để tạo ra kết quả cuối cùng. Điều này cải thiện tính mạnh mẽ và độ chính xác (accuracy) nhưng làm tăng đáng kể chi phí tính toán, vì mọi mô hình trong tập hợp phải được thực thi.
Mixture of Experts: Trong MoE, tất cả các chuyên gia là một phần của một mô hình lớn hơn duy nhất và được huấn luyện cùng nhau. Đối với bất kỳ đầu vào nào, mạng cổng chỉ chọn một vài chuyên gia để chạy. Điều này làm cho suy luận nhanh hơn và hiệu quả hơn về mặt tính toán so với một mô hình dày đặc có kích thước tương đương hoặc một ensemble, vì phần lớn các tham số của mô hình vẫn không được sử dụng cho mỗi tác vụ cụ thể.

Các Ứng dụng Thực tế

Các kiến trúc MoE đã trở nên đặc biệt nổi bật trong việc mở rộng quy mô các mô hình hiện đại, đặc biệt là trong NLP.

Các mô hình ngôn ngữ lớn (LLMs): MoE là công nghệ then chốt đằng sau một số LLM mạnh mẽ nhất. Ví dụ: Mixtral 8x7B của Mistral AI và Switch Transformers của Google sử dụng MoE để tạo ra các mô hình với hàng trăm tỷ hoặc thậm chí hàng nghìn tỷ tham số. Quy mô lớn này tăng cường khả năng kiến thức và lý luận của chúng mà không làm cho suy luận trở nên đắt đỏ một cách phi lý.
Computer Vision: Mặc dù phổ biến hơn trong LLM dựa trên Transformer, khái niệm MoE cũng có thể áp dụng cho computer vision (CV). Đối với một tác vụ phân loại ảnh phức tạp với các danh mục rất đa dạng, một mô hình MoE có thể có các chuyên gia chuyên về xác định động vật, phương tiện và tòa nhà. Mạng cổng (gating network) trước tiên sẽ phân tích hình ảnh và kích hoạt chuyên gia phù hợp, dẫn đến xử lý hiệu quả hơn. Cách tiếp cận này có thể được khám phá trong các mô hình tiên tiến như Ultralytics YOLO11.

Những thách thức và cân nhắc

Việc triển khai các mô hình MoE một cách hiệu quả bao gồm các thách thức như đảm bảo tải cân bằng giữa các expert (ngăn chặn một số expert bị sử dụng quá mức hoặc không đủ), quản lý chi phí giao tiếp trong môi trường đào tạo phân tán (như được thấy trong các framework như PyTorch và TensorFlow) và sự phức tạp gia tăng trong quá trình đào tạo. Cần xem xét cẩn thận các tùy chọn triển khai mô hình và quản lý bằng các nền tảng như Ultralytics HUB.

Mô hình Mixture of Experts (MoE)

Huấn luyện các mô hình Ultralytics YOLO để hợp lý hóa quy trình làm việc trong các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Huấn luyện các mô hình AI trong vài giây với Ultralytics YOLO

Cách thức hoạt động của Mô hình Mixture of Experts

MoE so với Ensemble mô hình

Các Ứng dụng Thực tế

Những thách thức và cân nhắc

Đọc thêm trong danh mục này

Từ bit đến qubit: Cách tối ưu hóa lượng tử đang định hình lại AI

Hướng dẫn nhanh cho người mới bắt đầu về cách đào tạo mô hình AI

Từ Dubai với những hiểu biết sâu sắc: Những điểm chính từ Hội nghị thượng đỉnh GDG MENA-T 2025

Tham gia cộng đồng Ultralytics