探索混合专家模型 (MoE),这是一种突破性的 AI 架构,可为 NLP、视觉、机器人等领域提供可扩展、高效的模型。
专家混合模型 (MoE) 是一种神经网络 (NN)架构,它通过将问题分配给称为“专家”的专门子模型,使模型能够更有效地学习。MoE 架构不是由单个整体模型处理每个输入,而是使用“门控网络”将每个输入动态路由到最相关的专家。这种方法的灵感来自于这样一种想法,即一个由擅长特定任务的专家组成的团队,可以比单个通才更有效地共同解决复杂问题。这种条件计算允许 MoE 模型扩展到大量的参数,同时保持推理的计算成本可控,因为对于任何给定的输入,只使用模型的一小部分。
MoE 架构由两个主要组件组成:
专家网络:这些是多个较小的神经网络(通常具有相同的架构),经过训练可以成为数据不同部分的专家。例如,在用于自然语言处理 (NLP)的模型中,一位专家可能专门从事英语到法语的翻译,而另一位专家则精通 Python 代码生成。每位专家都是更大的深度学习系统的组成部分。
门控网络: 这是一个小型神经网络,充当流量控制器或路由器。它接收输入并确定哪个专家或专家组合最适合处理它。门控网络输出每个专家的概率,并根据这些概率,有选择地激活一个或几个专家来处理输入。这种仅激活网络子集的技术通常称为稀疏激活,是 Google 的“超大型神经网络”等有影响力的论文中详细介绍的核心概念。
在训练过程中,专家网络和门控网络都使用反向传播同时进行训练。该系统不仅学习如何在专家内部解决任务,还学习如何通过门控网络有效地路由输入。
专家混合模型(Mixture of Experts)通常与模型集成相比较,但它们基于完全不同的原理运作。
MoE 架构在扩展最先进的模型(尤其是在 NLP 中)方面已变得尤为重要。
有效实施 MoE 模型面临诸多挑战,例如确保专家之间的负载均衡(防止某些专家过度或未被充分利用),管理 分布式训练 环境中的通信开销(如在 PyTorch 和 TensorFlow 等框架中看到的),以及训练过程复杂性的增加。还需要仔细考虑模型部署选项,并使用 Ultralytics HUB 等平台进行管理。