敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

混合专家模型 (MoE)

探索混合专家模型 (MoE),这是一种突破性的 AI 架构,可为 NLP、视觉、机器人等领域提供可扩展、高效的模型。

专家混合模型 (MoE) 是一种神经网络 (NN)架构,它通过将问题分配给称为“专家”的专门子模型,使模型能够更有效地学习。MoE 架构不是由单个整体模型处理每个输入,而是使用“门控网络”将每个输入动态路由到最相关的专家。这种方法的灵感来自于这样一种想法,即一个由擅长特定任务的专家组成的团队,可以比单个通才更有效地共同解决复杂问题。这种条件计算允许 MoE 模型扩展到大量的参数,同时保持推理的计算成本可控,因为对于任何给定的输入,只使用模型的一小部分。

混合专家模型的工作原理

MoE 架构由两个主要组件组成:

  1. 专家网络:这些是多个较小的神经网络(通常具有相同的架构),经过训练可以成为数据不同部分的专家。例如,在用于自然语言处理 (NLP)的模型中,一位专家可能专门从事英语到法语的翻译,而另一位专家则精通 Python 代码生成。每位专家都是更大的深度学习系统的组成部分。

  2. 门控网络: 这是一个小型神经网络,充当流量控制器或路由器。它接收输入并确定哪个专家或专家组合最适合处理它。门控网络输出每个专家的概率,并根据这些概率,有选择地激活一个或几个专家来处理输入。这种仅激活网络子集的技术通常称为稀疏激活,是 Google 的“超大型神经网络”等有影响力的论文中详细介绍的核心概念。

训练过程中,专家网络和门控网络都使用反向传播同时进行训练。该系统不仅学习如何在专家内部解决任务,还学习如何通过门控网络有效地路由输入。

MoE 与模型集成

专家混合模型(Mixture of Experts)通常与模型集成相比较,但它们基于完全不同的原理运作。

  • 集成方法: 在标准集成中,多个不同的模型被独立训练(或在不同的数据子集上训练)。对于推理,所有 模型都处理输入,并且它们的输出被组合(例如,通过投票或平均)以产生最终结果。这提高了鲁棒性和准确性,但显着增加了计算成本,因为必须执行集成中的每个模型。
  • 混合专家模型: 在 MoE 中,所有专家模型都是单个更大模型的一部分,并一起进行训练。对于任何给定的输入,门控网络选择几个专家模型来运行。与同等大小的密集模型或集成模型相比,这使得推理速度更快,计算效率更高,因为模型的大部分参数在每个特定任务中都保持未使用状态。

实际应用

MoE 架构在扩展最先进的模型(尤其是在 NLP 中)方面已变得尤为重要。

  1. 大型语言模型 (LLM): MoE是一些最强大的LLM背后的关键技术。例如,Mistral AI的Mixtral 8x7B和Google的Switch Transformers使用MoE来创建具有数千亿甚至数万亿参数的模型。这种巨大的规模增强了它们的知识和推理能力,而不会使推理成本过高。
  2. 计算机视觉:虽然 MoE 概念在基于 Transformer 的 LLM 中更为常见,但它也适用于计算机视觉 (CV)。对于具有高度多样化类别的大型图像分类任务,MoE 模型可以拥有专门用于识别动物、车辆和建筑物的专家。门控网络将首先分析图像并激活相应的专家,从而实现更高效的处理。可以在 Ultralytics YOLO11 等高级模型中探索这种方法。

挑战与考量

有效实施 MoE 模型面临诸多挑战,例如确保专家之间的负载均衡(防止某些专家过度或未被充分利用),管理 分布式训练 环境中的通信开销(如在 PyTorchTensorFlow 等框架中看到的),以及训练过程复杂性的增加。还需要仔细考虑模型部署选项,并使用 Ultralytics HUB 等平台进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板