术语表

专家混合体(MoE)

探索 "专家混合物"(MoE),这是一种突破性的人工智能架构,可为 NLP、视觉、机器人等技术提供可扩展的高效模型。

专家混合(MoE)是一种神经网络(NN)架构,它通过将问题划分给专门的子模型(称为 "专家")来提高模型的学习效率。MoE 架构使用 "门控网络 "将每个输入动态地分配给最相关的专家,而不是由一个单一的模型来处理每个输入。这种方法的灵感来源于这样一种理念,即由擅长特定任务的专家组成的团队,能够比单个通才更有效地共同解决复杂问题。这种条件计算方法允许 MoE 模型扩展到大量参数,同时保持推理计算成本在可控范围内,因为任何给定输入都只使用模型的一小部分。

专家混合物的工作原理

MoE 架构由两个主要部分组成:

  1. 专家网络:这是多个较小的神经网络,通常具有相同的架构,经过训练后可成为数据不同部分的专家。例如,在自然语言处理(NLP)模型中,一位专家可能擅长将英语翻译成法语,而另一位专家则精通 Python 代码生成。每个专家都是更大深度学习系统的一个组成部分。

  2. 门控网络:这是一个小型神经网络,充当流量控制器或路由器。它接收输入,并确定哪个专家或专家组合最适合处理该输入。门控网络为每个专家输出概率,并根据这些概率有选择地激活一个或几个专家来处理输入。这种只激活网络子集的技术通常被称为稀疏激活,是谷歌"大得离谱的神经网络"等有影响力的论文中详细阐述的核心概念。

训练过程中,专家网络和门控网络同时进行反向传播训练。系统不仅要学习如何在专家网络内解决任务,还要学习如何通过门控网络有效地分配输入。

MoE 与模型组合

专家混合物经常被拿来与模型集合相比较,但两者的运作原理却有本质区别。

  • 合奏方法:在标准的集合方法中,多个不同的模型被独立训练(或在不同的数据子集上训练)。在推理过程中,所有模型会处理输入数据,然后将它们的输出结果进行组合(例如,通过投票或平均),得出最终结果。这虽然提高了鲁棒性和准确性,但却大大增加了计算成本,因为必须执行集合中的每个模型。
  • 专家混合:在混合专家模型中,所有专家都是一个更大模型的一部分,并在一起接受训练。对于任何给定的输入,门控网络选择少数专家来运行。与同等规模的密集模型或集合模型相比,这使得推理速度更快,计算效率更高,因为模型的大部分参数在每个特定任务中都未使用。

实际应用

MoE 架构在扩展最先进的模型(尤其是在 NLP 领域)方面尤为突出。

  1. 大型语言模型 (LLM):MoE 是一些最强大的LLM 背后的关键技术。例如,Mistral AI 的 Mixtral 8x7B和 Google 的 Switch Transformers 使用 MoE 创建了拥有数千亿甚至数万亿参数的模型。这种庞大的规模增强了它们的知识和推理能力,同时又不会使推理成本过高。
  2. 计算机视觉:虽然 MoE 概念在基于变压器的 LLM 中更为常见,但它也适用于计算机视觉 (CV)。对于具有高度多样化类别的复杂图像分类任务,MoE 模型可以拥有专门识别动物、车辆和建筑物的专家。门控网络将首先分析图像,然后激活相应的专家,从而提高处理效率。这种方法可以在Ultralytics YOLO11 等高级模型中进行探索。

挑战和考虑因素

有效实施 MoE 模型涉及到各种挑战,如确保专家之间的负载平衡(防止某些专家被过度使用或使用不足)、管理分布式训练环境中的通信开销(如PyTorchTensorFlow 等框架中的情况)以及增加训练过程的复杂性。使用Ultralytics HUB等平台仔细考虑模型部署选项和管理也是必要的。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板