Ultralytics YOLO26 如何通过 ProgLoss、STAL 和 MuSGD 进行更智能的训练
了解 Ultralytics YOLO26 如何通过 Progressive Loss Balancing、Small-Target-Aware Label Assignment 和 MuSGD 优化器实现更可靠的训练。

上周,我们发布了 Ultralytics YOLO26,为以边缘计算为先、实时计算机视觉模型树立了新标准。与之前的 Ultralytics YOLO 模型(如 Ultralytics YOLO11)一样,YOLO26 支持你所熟悉的核心计算机视觉任务,包括目标检测、实例分割和姿态估计。

图 1. YOLO26 用于图像目标分割的示例。
然而,YOLO26 不仅仅是一次渐进式的更新。虽然支持的任务看起来很熟悉,但这款新模型在计算机视觉模型的训练方式上迈出了创新的一步。对于 YOLO26,我们的关注点不仅在于推理效率,还在于如何让训练过程更加稳定。
YOLO26 在设计时充分考虑了完整的训练生命周期。这意味着更快的收敛速度、更可靠的训练运行以及一致的模型行为。这些改进在现实世界的工作流程中尤为重要,因为训练的可靠性直接影响模型迭代和部署的速度。
为了实现这一点,YOLO26 引入了多项针对性的训练创新,例如渐进式损失平衡(ProgLoss)、小目标感知标签分配(STAL)和 MuSGD 优化器。这些变化共同改善了学习损失的平衡方式、标签分配方式以及优化过程随时间的变化行为。
在本文中,我们将探讨这些机制是如何工作的,以及为什么它们使 Ultralytics YOLO26 更易于训练且在大规模应用中更可靠。让我们开始吧!
Link to this sectionUltralytics YOLO26:旨在实现更智能的训练,而不只是更快的运行#
Ultralytics YOLO26 通过消除对 NMS 等后处理步骤的依赖,从本质上精简了整个推理管线。YOLO26 不再生成大量重叠的预测并对其进行过滤,而是直接从网络中生成最终的检测结果。
这使得 YOLO26 成为一种端到端的模型,其中预测、重复项消除和最终输出全部在网络内部习得。这简化了部署并提高了推理效率,同时也塑造了模型在训练期间的学习方式。

图 2. YOLO26 提供最先进的端到端、无 NMS 推理 (来源)
在这样的端到端系统中,训练和推理是紧密联系的。由于没有外部的后处理阶段来后续校正预测,模型必须在训练过程中学会做出清晰且自信的决策。
这使得训练目标与推理行为之间的一致性变得格外重要。模型训练方式与推理时的实际使用方式之间的任何不匹配,都可能导致训练不稳定或收敛变慢。
YOLO26 通过从一开始就围绕实际使用来设计其训练流程来解决这个问题。训练系统的构建不仅是为了关注推理速度,更是为了支持长周期训练中的稳定学习、跨模型尺寸(从 Nano 到 Extra Large)的一致性收敛,以及在不同数据集上的鲁棒性能。
Link to this section两个训练头如何改善 Ultralytics YOLO26 的学习效果#
Ultralytics YOLO26 的关键训练创新之一,基于之前 YOLO 模型所采用的双头训练方法。在目标检测模型中,“头”(head)是指网络中负责进行预测的部分。
换句话说,检测头学习预测图像中物体的位置以及物体的类别。它们通过回归 BBox 坐标来实现这一点,即学习估计输入图像中每个物体的位置和大小。
在训练期间,模型通过最小化损失来学习,这是一种数值度量,表示其预测结果与正确答案(即 ground truth)之间的差距。较低的损失意味着模型的预测更接近 ground truth,而较高的损失则表示误差更大。损失计算指导模型在训练期间如何更新其参数。
YOLO26 在训练期间使用两个检测头,它们共享同一个底层模型但用途不同。一对一(one-to-one)头是推理时使用的头。它学习将每个物体与单个、自信的预测相关联,这对于 YOLO26 的端到端、无 NMS 设计至关重要。
与此同时,一对多(one-to-many)头仅在训练期间使用。它允许将多个预测与同一个物体相关联,从而提供更密集的监督。这种更丰富的学习信号有助于稳定训练并提高准确性,尤其是在训练初期。
在 YOLO26 中,两个头对边界框回归和分类使用相同的损失计算。早期的实现方案在整个训练过程中对这两个损失信号施加了固定的权重平衡。
然而在实践中,每个头的重要性会随时间而变化。密集监督在初期最为有用,而与推理行为的一致性在训练后期变得更加重要。YOLO26 正是围绕这一见解设计的,这直接引导了它在训练过程中重新平衡学习信号的方式。
Link to this sectionUltralytics YOLO26 使用渐进式损失平衡#
那么,Ultralytics YOLO26 在训练期间如何处理这些不断变化的学习需求呢?它使用渐进式损失平衡(ProgLoss)来调整学习信号在不同时间段的权重。
ProgLoss 的工作原理是:随着训练的进行,动态调整每个头对总损失的贡献度。在早期,更多权重会被分配给一对多头,以稳定学习并提高召回率。随着训练继续,平衡逐渐向一对一头转移,使训练过程与推理行为更加一致。
这种渐进式转换允许 YOLO26 按正确的顺序进行学习。渐进式损失平衡没有强迫模型同时优化相互竞争的目标,而是在训练的每个阶段优先处理最有用的学习信号。结果就是更平滑的收敛、更少的不稳定训练运行以及更一致的最终性能。
Link to this sectionSTAL 如何帮助 Ultralytics YOLO26 学习小物体#
Ultralytics YOLO26 的另一个有趣的训练改进来自模型如何为预测分配训练目标,这个过程被称为标签分配。它负责将 ground truth 物体与候选预测(通常称为 anchors)进行匹配。
这些匹配决定了哪些预测会获得监督并贡献于损失。YOLO26 基于现有的标签分配方法——任务对齐学习(TAL)进行改进,该方法旨在在训练期间更好地对齐分类和定位。
虽然 TAL 对大多数物体效果很好,但训练揭示了一个重要的局限性。在匹配过程中,非常小的物体可能会被完全丢弃。在实践中,在 640 像素输入图像中,小于约 8 像素的物体往往无法获得任何 anchor 分配。当这种情况发生时,模型几乎无法获得这些物体的监督信息,从而难以学会可靠地检测它们。
为了解决这个问题,YOLO26 引入了小目标感知标签分配(STAL)。STAL 修改了分配过程,以确保小物体在训练期间不会被忽略。具体来说,它强制要求为小于 8 像素的物体至少分配四个 anchor。这保证了即使是微小的物体也能持续贡献于训练损失。
通过加强对小物体的监督,STAL 提高了在常见小目标或远距离目标场景下的学习稳定性和检测性能。这种改进对于以边缘计算为先的 YOLO26 应用(如航空影像、机器人和物联网(IoT)系统)尤为重要,在这些系统中,物体往往很小、距离较远或部分遮挡,可靠的检测至关重要。
Link to this sectionUltralytics YOLO26 引入了 MuSGD 优化器#
为了支持更稳定和可预测的训练,Ultralytics YOLO26 还引入了一种名为 MuSGD 的新优化器。该优化器旨在提高端到端检测模型的收敛速度和训练可靠性,尤其是随着模型规模和训练复杂度的增加。
为了让神经网络在训练过程中学习并相应地调整权重,我们会计算误差(也称为“损失”)。因此,模型会使用损失值来衡量其预测的错误程度,计算梯度以指示参数应如何改变,然后更新这些参数以减少误差。随机梯度下降(SGD) 是一种广泛使用的优化器,它执行这些更新,使训练变得高效且可扩展。

图 3. 随机梯度下降与梯度下降对比 (来源)
MuSGD 基于这一熟悉的基石,结合了受 Muon 启发(这是一种用于大语言模型训练的方法)的优化思想。这些思想受到了 Moonshot AI 的 Kimi K2 等近期进展的影响,Kimi K2 展示了通过更结构化的参数更新来改善训练行为。
YOLO26 使用混合更新策略。部分参数使用 Muon 启发的更新与 SGD 的组合来更新,而其他参数则单独使用 SGD。这使得 YOLO26 能够在引入额外的优化过程结构的同时,保持 SGD 原有的鲁棒性和泛化特性。
其结果是更平滑的优化、更快的收敛以及跨模型尺寸更可预测的训练行为,这使得 MuSGD 成为 YOLO26 更易于训练且在大规模应用中更可靠的关键原因之一。
Link to this sectionUltralytics YOLO26 训练创新的意义#
Ultralytics YOLO26 的训练创新,结合其端到端、无 NMS 以及以边缘计算为先的设计等关键特性,使模型更易于训练且在大规模应用中更可靠。你可能想知道这对计算机视觉应用意味着什么。

图 4. YOLO26 的关键特性一览 (来源)
实际上,这使得将计算机视觉带到它真正运行的地方变得更容易。模型训练更可预测,在不同规模下扩展更一致,并且更易于适配新数据集。这减少了实验与部署之间的摩擦,特别是在那些可靠性和效率与原始性能同样重要的环境中。
例如,在机器人和工业视觉应用中,随着环境、传感器或任务的变化,模型通常需要频繁地进行重新训练。有了 YOLO26,团队可以更快地迭代,而无需担心训练不稳定或跨模型尺寸行为不一致的问题。
Link to this section关键要点#
可靠的计算机视觉系统不仅取决于模型的推理性能,同样取决于模型的训练方式。通过改进学习信号的平衡方式、小物体的处理方式以及优化过程的推进方式,YOLO26 使训练更加稳定且更易于扩展。这种对可靠训练的专注帮助团队更顺畅地从实验过渡到现实世界部署,尤其是在以边缘计算为先的应用中。
想了解更多 AI 知识吗?访问我们的 GitHub 仓库探索更多内容。加入我们活跃的 社区,了解物流 AI 和汽车行业视觉 AI 等领域的创新。若想立即开始计算机视觉之旅,请查看我们的 授权选项。






