深圳Yolo 视觉
深圳
立即加入

Ultralytics YOLO26更快、边缘优先设计的影响

了解 Ultralytics YOLO26 在边缘设备上速度更快的原因,以及这对于要求低延迟和高效率的下一代计算机视觉应用的重要性。

使用 Ultralytics 扩展您的计算机视觉项目

开始使用

本周早些时候,Ultralytics 正式推出了Ultralytics YOLO26,这是一个更快、更轻、更小的 YOLO 模型,旨在重新定义计算机视觉系统在边缘设备的性能表现。YOLO26 支持与之前 YOLO 模型相同的核心视觉任务,包括目标detect和实例segment。

图1. 使用 YOLO26 对物体进行segment的示例。

YOLO26 与之前模型之间的决定性差异在于其设计运行环境。YOLO26 并非主要针对云端图形处理单元 (GPU) 或基准测试驱动的性能进行优化,而是从头开始设计,旨在用于边缘设备和嵌入式硬件的实际部署。

随着计算机视觉从研究走向生产,性能限制的现实变得越来越清晰。边缘环境受到严格的延迟预算、有限的内存、功耗和散热限制,以及在不同平台上实现可预测行为的需求的影响。

在这些环境中,整体系统性能不仅取决于原始推理速度,还取决于整个流水线运行的效率。后处理开销、内存压力和平台特定的执行路径常常是瓶颈。

YOLO26 通过采取一种更快、边缘优先的方法来应对这些挑战,这种方法着眼于整个推理流水线,而非单个模型指标。通过专注于边缘优化、简化推理流水线并移除不必要的后处理步骤,YOLO26 实现了速度提升,从而在生产环境中实现更低的延迟和更可靠的行为。

在本文中,我们将探讨 YOLO26 的架构选择如何转化为实际的性能提升,以及为什么在边缘设备上更快从根本上改变了下一代计算机视觉应用的潜力。 

边缘部署的现实

在边缘设备上运行计算机视觉模型与在云端运行它们大相径庭。在云环境中,系统通常可以访问强大的 GPU、大量内存和稳定的硬件。而在边缘,相同的假设不再适用。 

大多数边缘部署运行在多样化的硬件架构上,而非 GPU。设备通常使用多个专用处理器来执行不同任务,这些处理器针对效率和低功耗进行了优化,而非云端 GPU 的原始计算能力。

延迟是另一个主要限制。边缘系统通常在严格的实时限制下运行,即使是微小的延迟也可能影响响应能力或安全性。在这些情况下,端到端延迟比原始推理速度更重要。一个模型在理论上可能很快,但一旦加入后处理和数据传输,其性能仍可能不足。

内存也扮演着重要角色。许多边缘设备内存有限,并使用共享缓存。大型中间tensor和低效的内存使用可能会拖慢系统,即使模型本身是高效的。

功耗和散热限制增加了进一步的约束。边缘设备通常在没有主动散热的情况下运行,并在固定的功耗预算内运行。性能需要高效且可持续,而不仅仅是短时间内的快速爆发。

除此之外,边缘部署需要一致性。模型必须在不同设备和运行时环境中表现一致。平台特定的代码或复杂的后处理步骤可能会引入细微差异,从而使系统更难部署和维护。

图2. 边缘部署的约束一览。图片由作者提供。

这些约束定义了性能在边缘设备上的真正含义。换句话说,性能由整个流水线定义,而非单个指标。

为什么边缘视觉需要不同的性能模型

那么,边缘部署的约束与为边缘设备构建的计算机视觉模型的要求有何关联?一旦模型从研究环境进入实际系统,这种关联就变得清晰起来。

在云环境中,性能通常通过推理速度和准确性等基准测试来衡量。而在边缘设备上,这些指标只说明了部分情况。视觉系统通常在异构硬件上运行,其中神经网络推理被卸载到专用加速器,而流水线的其他部分则在通用处理器上运行。

在这种情况下,模型速度本身是不够的。模型部署后整个系统的表现才是关键。模型本身可能看起来很快,但如果后处理、数据传输或平台特定步骤增加开销,其性能仍可能不足。

这就是为什么边缘视觉需要一个侧重于系统级效率而非孤立基准测试的性能模型。YOLO26通过专注于边缘优先优化、精简推理和为实际部署构建的端到端执行来体现这一转变。

速度的基础:边缘优先设计

在边缘端,性能取决于模型与设备实际硬件架构的匹配程度。优先为边缘设计可确保视觉系统在实际平台上可靠运行,无论可用处理单元的具体组合如何。

边缘优先方法优先考虑在异构硬件上实现可预测且高效的执行,而不是事后调整为云端GPU优化的模型。简而言之,这意味着偏爱能够很好地转换为神经网络加速器的操作,最大限度地减少模型外部的非神经网络工作,并减少可能减慢端到端执行的不必要复杂性。

YOLO26在设计时考虑了这些限制。其架构侧重于一致的性能,而非理想条件下的峰值吞吐量。通过简化执行路径并消除不必要的计算,YOLO26减少了整个推理管道的开销,并更好地利用了设备的可用加速和内存层次结构。

这种方法也提高了可靠性。边缘优先优化带来了更可预测的时序和更少的性能峰值,这对于实时系统至关重要。YOLO26不依赖专用硬件或繁重的后处理来提高速度,而是强调整个推理管道的效率。

端到端推理与后处理的成本

你可能想知道消除不必要的后处理步骤意味着什么。为了理解这一点,让我们回顾一下传统的 object detection 系统是如何工作的。

在许多 object detection 管道中,推理并不会在模型生成预测后立即结束。相反,模型会输出大量重叠的边界框,这些边界框在使用前需要进行过滤和精炼。这种清理通过在模型本身之外运行的后处理步骤完成。

最常见的后处理步骤之一是 非极大值抑制,即 NMS。NMS 比较重叠的边界框,只保留最可信的 detect,并移除指代同一对象的重复项。尽管这种方法有效,但它在推理完成后引入了额外的计算。

图3. 理解 NMS。图片由作者提供。

在边缘端,这种额外的工作是有代价的。像 NMS 这样的后处理步骤不适用于用于神经网络推理的专用加速器,这些加速器针对密集的神经网络计算进行了优化,而非控制密集型或内存密集型操作。 

因此,NMS 引入了额外的延迟和内存开销,并且其成本随着 detect 数量的增加而增长。即使模型本身很快,NMS 仍可能占用总运行时间的很大一部分。

后处理也增加了系统复杂性。由于它存在于模型之外,因此必须针对不同的运行时和硬件目标单独实现。这通常会导致平台特定的代码路径、设备间行为不一致以及更脆弱的部署管道。

最重要的是,后处理打破了真正的端到端性能理念。测量模型推理速度并不能反映系统在生产环境中的行为。最终重要的是从输入到最终输出的总时间,包括管道中的每个步骤。

在这些情况下,后处理成为边缘端的隐性瓶颈。它增加了延迟,消耗 CPU 资源,并使部署复杂化,而所有这些都发生在模型本身之外。

YOLO26 如何移除 NMS 以及为何这使其更快

YOLO26 通过解决重复 detect 的根本原因,而不是在推理后进行清理,从而移除了 NMS。模型被训练为直接生成一组更小、更可靠的最终 detect,而不是产生大量需要过滤的重叠预测。

这通过改变训练期间学习 detect 的方式得以实现。YOLO26 鼓励对象与预测之间建立更清晰的一一对应关系,从源头减少冗余。因此,重复的 detect 在网络内部而非通过外部后处理得到解决。

移除 NMS 对边缘性能有立竿见影的影响。由于 NMS 与神经网络加速器不匹配,消除它减少了内存传输并避免了昂贵的非神经网络处理步骤。这降低了端到端延迟,并使性能更可预测,尤其是在边缘设备上,否则后处理可能会占用总运行时间的显著部分。

它还简化了推理管道。模型外部的步骤减少,数据传输和组件之间的交接也随之减少。模型的输出已经是最终结果,这使得执行更可预测。

移除 DFL 以实现真正的端到端性能

YOLO26 的另一项创新是移除了分布焦点损失(Distribution Focal Loss),即 DFL,该损失在早期的 YOLO 模型中用于边界框回归。使用 DFL 的模型不是直接预测单个坐标,而是学习可能值的分布,然后从该分布中推导出最终的边界框。这种方法有助于提高定位精度,是前几代模型的重要进步。

然而,随着时间的推移,DFL 也带来了一些权衡。预测分布增加了计算量并增加了模型架构的复杂性,这可能会减慢 CPU 上的推理速度,并使模型更难跨 部署格式 导出。DFL 还施加了固定的回归范围,这可能会限制 detect 非常大对象时的灵活性。

YOLO26 移除了 DFL,这是其迈向更简单、端到端设计的一部分。边界框回归经过重新设计,变得更加直接,在保持准确性的同时减少了不必要的计算。这一改变与 YOLO26 的 NMS-free 方法相符。

43% 更快的 CPU 推理速度从何而来

在基于 CPU 的基准测试中,YOLO26 相较于早期 YOLO 模型展现出显著的性能提升。与 Ultralytics YOLO11 相比,YOLO26 nano 模型在 CPU 推理速度上提升高达 43%,这一差异对实际边缘部署具有重要意义。

图 4. YOLO26 CPU 速度基准测试。

这一提升源于简化了整个推理管道,而非仅仅优化单个组件。端到端执行消除了后处理开销,更直接的边界框回归方法减少了计算量,而 CPU 优先的设计选择则提高了通用处理器上的执行效率。

综合来看,这些改变降低了延迟,减少了 CPU 工作负载,并带来了在实际边缘硬件上更快、更一致的性能。

YOLO26 对边缘部署和导出的影响

YOLO26 的性能提升不仅限于更快的推理速度。通过简化模型和减少内存开销,它在边缘环境中部署和运行变得更加容易和可靠。

YOLO26 的端到端设计也简化了 导出。由于辅助组件更少且没有外部后处理步骤,导出的模型是完全自包含的。这减少了平台特定的依赖性,并有助于确保在不同运行时和硬件目标上行为一致。

实际应用中,这意味着 YOLO26 可以通过各种导出格式更轻松地部署到摄像头、机器人和嵌入式系统等边缘设备。所导出即所运行,集成步骤更少,部署漂移的风险也更低。

更快的边缘推理赋能机器人技术和工业视觉 AI

迄今为止,我们已经探讨了 YOLO26 的边缘优先设计如何提升系统级性能。然而,其真正的影响在于它如何使视觉 AI 更容易集成到实际应用中。

例如,在 机器人技术 和工业环境中,视觉系统通常在严格的实时约束下运行。决策需要快速且一致地做出,同时使用有限的计算资源,并且不依赖云连接。借助 Ultralytics YOLO26,满足这些要求变得切实可行。

机器人导航和物体操作等应用受益于更低的延迟和更可预测的推理,使机器人能够平稳响应环境变化。同样,在工业环境中,视觉模型可以直接在生产线上运行,以 detect 缺陷、track 组件和监控流程,而不会引入延迟或增加复杂性。

通过在边缘硬件上实现快速、可靠的推理,YOLO26 有助于使视觉 AI 成为机器人技术和工业系统的自然组成部分,而不是部署和维护的挑战。

主要要点

YOLO26 专为边缘而构建,在边缘环境中,延迟、内存和可靠性等实际约束定义了其可能性。通过围绕 CPU 优先执行、端到端推理和更简单的部署来设计模型,YOLO26 使视觉 AI 能够实际集成到真实系统中。这种边缘优先的方法支持广泛的应用,从机器人技术和工业视觉到嵌入式和设备端 AI,在这些领域中,性能和可预测性至关重要。

加入我们不断壮大的社区,探索我们的GitHub 存储库,获取人工智能实践资源。要立即使用 Vision AI 进行构建,请探索我们的许可选项。访问我们的解决方案页面,了解农业人工智能如何改变农业生产,以及Vision AI如何在医疗保健领域塑造未来。

让我们一起共建AI的未来!

开启您的机器学习未来之旅