遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Mixture of Experts (MoE)

探索专家混合 (MoE) 架构。了解门控网络和稀疏层如何为高性能 AI 和计算机视觉扩展神经网络。

专家混合模型 (MoE) 是一种深度学习中的专门架构设计,它允许模型在不增加计算成本的情况下扩展到巨大规模。与每个参数在每次输入时都处于活跃状态的标准密集型 神经网络 (NN) 不同,MoE 模型采用了一种称为条件计算的技术。这种方法根据输入数据的具体特征,仅动态激活网络的一小部分组件(称为“专家”)。通过这种方式,MoE 架构能够创建强大的 基础模型,这些模型既可以拥有数万亿个参数,又能保持较小系统才具备的 推理延迟 和运行速度。

Link to this sectionMoE 的核心机制#

专家混合模型的高效性源于用稀疏 MoE 层替换了标准的密集层。该层通常由两个协同工作以高效处理信息的主要元素组成:

  • 专家: 这些是独立的子网络,通常是简单的前馈神经网络 (FFN)。每位专家都擅长处理数据的不同方面。在 自然语言处理 (NLP) 的背景下,一位专家可能擅长处理语法,而另一位则专注于事实检索或代码语法。
  • 门控网络(路由): 路由充当数据的交通控制器。当输入(如图像块或文本 token)进入该层时,路由会使用 softmax 函数 计算概率分数。然后,它仅将输入导向得分最高的“Top-K”专家(通常是一个或两个)。这确保了模型只在最相关的参数上消耗能量。

Link to this section与模型集成的区别#

虽然这两个概念都涉及使用多个子模型,但区分专家混合模型和 模型集成 至关重要。在传统集成中,组中的每个模型都会处理相同的输入,并通过对结果进行平均或投票来最大化 准确率。这种方法会随着模型数量的增加而线性增加计算成本。

相反,MoE 是一个单一的统一模型,不同的输入会经过不同的路径。稀疏 MoE 旨在通过在任何给定的推理步骤中仅运行总参数的一小部分来实现 可扩展性 和效率。这允许在海量 训练数据 上进行训练,而无需承担密集型集成所带来的高昂成本。

Link to this section实际应用#

MoE 架构已成为现代高性能 AI 的基石,特别是在需要多任务处理能力和广泛知识保留的场景中。

  1. 多语言模型:Mistral AI's Mixtral 8x7B 这样的知名模型利用 MoE 在各种语言任务中表现出色。通过将 token 路由到专业专家,这些系统可以在单一模型结构内处理翻译、摘要和编码任务,性能优于具有相似活跃参数计数的密集模型。

  2. 可扩展计算机视觉:计算机视觉 (CV) 领域,研究人员应用 MoE 构建大规模视觉主干。 Vision MoE (V-MoE) 架构展示了专家如何专门识别不同的视觉特征,从而有效地扩展在 ImageNet 等基准测试上的性能。虽然高度优化的密集模型(如 YOLO26)由于其可预测的内存占用,仍然是实时边缘检测的标准,但 MoE 研究不断突破服务器端视觉理解的边界。

Link to this section路由逻辑示例#

要了解门控网络如何选择专家,请参考这个简化的 PyTorch 示例。它演示了一种为给定输入选择最相关专家的路由机制。

import torch
import torch.nn as nn

# A simple router deciding between 4 experts for input dimension of 10
num_experts = 4
input_dim = 10
router = nn.Linear(input_dim, num_experts)

# Batch of 2 inputs
input_data = torch.randn(2, input_dim)

# Calculate scores and select the top-1 expert for each input
logits = router(input_data)
probs = torch.softmax(logits, dim=-1)
weights, indices = torch.topk(probs, k=1, dim=-1)

print(f"Selected Expert Indices: {indices.flatten().tolist()}")

Link to this section训练与部署中的挑战#

尽管有其优势,MoE 模型也为 训练过程 带来了独特的挑战。一个主要问题是 负载均衡;路由可能会偏爱少数几个“热门”专家而忽略其他专家,从而导致容量浪费。为了缓解这种情况,研究人员使用辅助 损失函数 来鼓励对所有专家进行平均使用。

Furthermore, deploying these massive models requires sophisticated hardware setups. Since the total parameter count is high (even if active parameters are low), the model often requires significant VRAM, necessitating distributed training across multiple GPUs. Frameworks like Microsoft DeepSpeed help manage the parallelism required to train these systems efficiently. For managing datasets and training workflows for such complex architectures, tools like the Ultralytics Platform provide essential infrastructure for logging, visualization, and deployment.

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅