深圳Yolo 视觉
深圳
立即加入

Ultralytics YOLO26移除了NNMS 对部署的影响

探索Ultralytics 真正的端到端、NMS推理,以及为何去除后处理能简化导出和边缘部署。

1月14日,我们Ultralytics 新一代计算机视觉模型。YOLO26的研发目标不仅在于提升准确率或运行速度,更在于重新构思物体检测模型在实际系统中的构建与部署方式。

随着计算机视觉技术从研究走向生产应用,模型在CPU、边缘设备、摄像头、机器人及嵌入式硬件上的运行需求日益增长。在这些环境中,可靠性、低延迟和部署便捷性与性能表现同样重要。 

YOLO26的设计正是基于这一现实考量,采用精简的端到端架构,从推理管道中剔除了不必要的复杂性。YOLO26最重要的创新之一,便是去除了非最大抑制(NMS)。 

多年来NMS (邻域排除法)NMS 目标检测系统的标准组件,作为后处理步骤用于清理重复检测结果。虽然该方法有效,但也带来了额外的计算和部署挑战,尤其在边缘硬件上更为显著。

在YOLO26中,我们采用了全新的方法。通过重新设计预测的生成与训练机制,实现了真正的端到端、NMS推理过程。该模型直接输出最终检测结果,无需依赖外部清理步骤或人工规则。这使得YOLO26不仅运行速度更快、更易于导出,还能在各类硬件平台上实现更可靠的部署。

图1.Ultralytics YOLO26检测图像中的物体。

本文将深入探讨传统目标检测为何依赖NMS、该算法如何成为部署瓶颈,以及YOLO26如何彻底消除这些变通方案的需求。让我们开始吧!

传统目标检测会产生重复检测结果

在深入探讨NMS 以及为何我们在YOLO26中移除了它之前,让我们先退一步,看看传统目标检测模型是如何生成预测结果的。

传统目标检测模型常为同一目标生成多个重叠的边界框。尽管这些边界框均指向图像中的同一目标,但每个边界框都附带独立的置信度分数。

这种现象的发生有几个原因。首先,模型会在多个空间位置和不同尺度上同时进行预测。这有助于模型detect 不同尺寸detect 但也意味着相邻位置都可能独立识别出同一个物体。

其次,许多目标检测系统采用锚点方法,该方法会在每个位置周围生成大量候选边界框。虽然这提高了准确检测目标的概率,但也增加了预测结果重叠的数量。

最后,基于网格的检测本身会自然产生冗余。当目标位于多个网格单元边界附近时,多个单元可能预测该目标的边界框,从而导致多个检测结果重叠。 

因此,模型的原始输出中常会出现单个目标对应多个检测框的情况。为使结果具备实用性,需过滤这些冗余预测,最终仅保留一个检测结果。

理解非最大抑制

当物体检测模型为同一物体生成多个重叠的边界框时,必须先对这些结果进行清理才能使用。此时就需要应用非最大抑制技术。

非最大抑制是一种在模型完成预测后执行的后处理步骤。其目的是减少重复检测,确保每个目标仅由单个最终边界框表示。

图2.NMS概述。作者绘制。

该过程通过比较边界框的置信度得分及其重叠程度来实现。置信度极低的预测结果将首先被剔除。 

剩余的检测框按置信度排序,得分最高的框被选为最佳检测结果。该选定框将与其他检测框进行比较。 

若另一个框与之重叠过多,则该框会被抑制并移除。重叠通常通过交并比(Intersection over Union)进行测量该指标计算两个框共享区域与两者覆盖总面积之比此过程将持续迭代,直至仅剩最可靠且无重叠的检测结果。

为何NMS 部署NMS

虽然非最大抑制有助于过滤重复检测结果,但它也会带来一些挑战,这些挑战在模型从研究阶段进入实际部署时会变得更加明显。

最大的问题之一是性能。NMS 推理之后NMS ,需要将边界框相互比较以决定保留哪些边界框。 

该过程计算成本高昂且难以高效并行化。在边缘设备和CPU系统上,额外的工作量会显著增加延迟,从而难以满足实时需求。

NMS 增加部署的复杂性。由于它本身不属于模型的一部分,因此必须作为后处理代码单独实现。 

不同运行时环境和平台NMS 这通常意味着需要为每个目标环境维护定制化的实现方案。在某个环境中有效的方案,在另一个环境中可能表现出细微差异,从而导致部署更脆弱且难以扩展。

硬件优化是另一项挑战。NMS 与专用AI加速器实现无缝对接——这些加速器专为高效运行神经网络运算而设计。因此,即使模型在优化硬件上运行迅速,NMS 成为限制整体性能的瓶颈。

除上述因素外NMS 人工选择的参数,例如置信阈值和重叠阈值。这些设置会显著影响结果,且通常需要针对不同的数据集、应用场景或硬件进行调优。这使得其行为在生产系统中更难预测,并增加了额外的配置开销。

端到端目标检测推理详解

非最大抑制的局限性促使我们重新思考物体检测模型在推理阶段的行为模式。与其生成大量重叠预测结果再进行后续清理,我们提出了更根本的问题。 

如果模型能够直接输出最终检测结果会怎样?这个问题正是端到端目标检测推理的核心所在。在端到端系统中,模型经过训练可独立完成整个检测流程,无需依赖外部清理步骤。

该模型无需生成大量候选框并在推理后进行筛选,而是自主学习生成少量互斥且置信度高的预测结果。重复检测问题在网络内部得到解决,而非通过后处理进行消除。

新型模型架构表明,这种方法既可行又实用。通过正确的训练策略,模型能够学会将每个对象与单一预测结果关联,而非产生多个相互竞争的预测,从而从源头上减少冗余。

图3.Ultralytics YOLO26检测物体的示例。

要实现这一目标,训练方式也必须改变。模型不再让众多预测结果争夺同一目标,而是学会做出明确的单一决策,从而产生更少但更可靠的检测结果。

最终结果是构建出更简洁的推理管道。由于重复检测已在内部解决,推理阶段无需执行非最大抑制操作。模型输出即为最终的检测结果集。

这种端到端设计也使部署更为简便。无需后处理步骤或特定NMS ,导出的模型完全自包含,并在不同推理框架和硬件目标上表现一致。

正如我们的首席合作工程师弗朗切斯科·马蒂奥利所阐述的:“真正的端到端学习意味着模型应从像素到预测全程自主处理,无需依赖破坏可微分性且复杂化部署的手工后处理步骤。”

Ultralytics 如何消除NMS

YOLO26通过改变检测结果的学习与生成方式来消除非最大抑制,而非依赖后处理进行清理。它不再允许多个预测结果争夺同一目标,而是通过训练使目标与输出之间建立清晰的一对一对应关系。

这在一定程度上得益于可学习的基于查询的检测机制,该机制能帮助模型专注于为每个目标生成单一且可靠的预测结果,而非产生大量重叠的候选目标。每个目标仅关联一个预测结果,从而自然减少了重复检测的情况。

这种行为通过训练期间一致的匹配策略得到强化,促使模型对每个目标做出一个确定的决策,而非生成重叠预测。最终,模型产生的预测数量减少,但每个预测都代表最终的检测结果。 

为何移除DFL使NMS检测成为可能

YOLO26实现NMS推理的另一项重要创新是移除了分布式焦点损失(DFL)。在早期YOLO ,DFL通过预测可能的边界框位置分布(而非单一数值)来提升边界框回归精度。 

虽然这种方法提高了定位精度,但也增加了检测流程的复杂性。这种复杂性在向真正的端到端推理过渡时成为了一种限制。 

DFL引入了额外的计算和固定的回归范围,这使得模型更难学习纯净的一对一目标分配,并增加了对后处理步骤(如非最大抑制)的依赖。在YOLO26中,我们移除了DFL,并重新设计了边界框回归,使其更简单直接。

该模型不再依赖基于分布的输出,而是学会以更少但更可靠的检测方式预测精确的边界框坐标。这种改变有助于从源头减少预测重叠,并将边界框回归与YOLO26的端到端、NMS相协调。 

Ultralytics NMS即可轻松部署

NMS的设计使YOLO26成为真正的端到端模型。这对于模型导出具有重要影响。 

导出是指将训练好的模型转换为可在训练环境外运行的格式,ONNX、TensorRT、OpenVINO。在传统管道中,该过程常会中断,因为非最大抑制(NMS)并非模型本身的一部分。 

通过移NMS完全规避了这一问题。导出的模型已包含生成最终检测所需的所有内容。 

这使得导出的模型完全自包含,并在不同推理框架和硬件目标间更具可移植性。无论部署在服务器、CPU、嵌入式设备还是边缘加速器上,同一模型都能保持一致的行为表现。部署过程也变得更为简便,因为导出的内容与实际运行的内容完全一致。

这种简洁性对边缘应用尤为重要。例如,YOLO26可轻松部署在无人机等设备上,用于作物监测、田间巡检和植物健康分析等场景——这些场景因计算资源和功耗预算有限,使得复杂的后处理流程难以实施。由于模型能直接输出最终检测结果,它能在轻量级硬件上稳定运行,无需额外处理步骤。

图4.Ultralytics 可轻松部署于无人机等边缘设备上。

简而言之NMS推理消除了导出和部署过程中的摩擦,使视觉系统更简洁可靠。NMS 权宜之计,而YOLO26已无需任何权宜之计。

主要要点

YOLO26通过解决重复检测的根本问题来消除非最大抑制(NMS),而非事后清理。其端到端设计使模型能直接输出最终检测结果,简化了导出流程,并在不同硬件平台上实现了更一致的部署。NMS 早期系统的有效权宜之计,但YOLO26已不再需要它。

加入我们的社区,访问GitHub代码库,深入了解人工智能。探索我们在农业人工智能和 零售计算机视觉领域的解决方案页面。了解我们的授权方案,立即开启视觉人工智能之旅! 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始