遇见 YOLO26: 下一代视觉 AI。
Ultralytics
Ultralytics YOLO

Ultralytics YOLO26 更快、以边缘计算为先的设计所带来的影响

看看 Ultralytics YOLO26 在边缘设备上速度如何更快,以及为什么这对需要低延迟和高效性的下一代计算机视觉应用至关重要。

ABAbirami Vina
6 min read
Ultralytics YOLO26 用于计算机视觉的更快速、以边缘计算为先的设计

本周早些时候,Ultralytics 正式发布了 Ultralytics YOLO26,这是一款更快、更轻、更小的 YOLO 模型,旨在重新定义计算机视觉系统在边缘侧的表现。YOLO26 支持与之前 YOLO 模型相同的核心视觉任务,包括目标检测和实例分割。

使用 YOLO26 进行对象分割的示例

图 1. 使用 YOLO26 分割对象的示例。

YOLO26 与之前模型的根本区别在于其设计运行的环境。YOLO26 并非主要针对云端图形处理器 (GPU) 或基准测试表现进行优化,而是从头开始,专为在边缘设备和嵌入式硬件上的实际部署而设计。

随着 计算机视觉 从研究走向生产,性能限制的现实变得愈发清晰。边缘环境受到严格的延迟预算、有限的内存、功耗和散热限制,以及对跨不同平台行为可预测性的需求所制约。

在这些设置中,系统整体性能不仅取决于原始推理速度,还取决于整个流水线的运行效率。后处理开销、内存压力和特定于平台的执行路径往往是瓶颈所在。

YOLO26 通过采取更快、以边缘计算为先的方法来应对这些挑战,该方法着眼于整个推理流水线,而非单个模型指标。通过专注于边缘优化、简化推理流水线并移除不必要的后处理步骤,YOLO26 提供了速度提升,从而在生产中实现更低的延迟和更可靠的行为。

在本文中,我们将探讨 YOLO26 的架构选择如何转化为现实世界的性能提升,以及为什么在边缘侧实现更快的速度会从根本上改变下一代计算机视觉应用的可能性。

Link to this section边缘部署的现实#

在边缘运行 计算机视觉模型 与在云端运行有很大不同。在云环境中,系统通常可以访问强大的 GPU、大内存和稳定的硬件。而在 边缘 侧,同样的假设并不适用。

大多数边缘部署运行在多样化的硬件架构上,而非 GPU 上。设备通常使用多个专用处理器来完成不同任务,这些处理器针对效率和低功耗进行了优化,而不是针对云端 GPU 的原始计算能力。

延迟是另一个主要约束。边缘系统通常在严格的实时限制下运行,即使是很小的延迟也可能影响响应能力或安全性。在这种情况下,端到端延迟比原始推理速度更重要。一个模型在纸面上可能很快,但一旦加上后处理和数据移动,表现就会大打折扣。

内存也起着重要作用。许多边缘设备内存有限且缓存共享。即使模型本身高效,大型中间张量和低效的内存使用也可能拖慢系统速度。

功耗和散热限制增加了进一步的约束。边缘设备通常在没有主动散热的情况下运行,且功耗预算固定。性能必须高效且可持续,而不仅仅是短时间内的高速爆发。

最重要的是,边缘部署需要一致性。模型必须在不同设备和运行时上表现一致。特定于平台的代码或复杂的后处理步骤可能会引入细微的差异,从而使系统更难部署和维护。

边缘部署的约束条件概览

图 2. 关注边缘部署的限制。图片由作者提供。

这些约束定义了边缘侧性能的真正含义。换句话说,性能是由整个流水线定义的,而不是由单一指标定义的。

Link to this section为什么边缘视觉需要不同的性能模型#

那么,边缘部署的约束与为边缘构建的计算机视觉模型的要求有何关联?一旦模型从研究设置进入实际系统,这种联系就变得清晰了。

在云环境中,性能通常使用推理速度和准确度等基准进行衡量。在边缘侧,这些指标只能反映部分情况。视觉系统通常跨异构硬件运行,其中神经网络推理卸载到专用加速器,而流水线的其他部分则在通用处理器上运行。

在这种背景下,模型速度是不够的。模型部署后的整体系统表现才是关键。一个模型自身可能看起来很快,但如果后处理、数据移动或特定平台步骤增加了开销,它仍然会表现不佳。

这就是为什么边缘视觉需要一种侧重于系统级效率而非孤立基准的性能模型。YOLO26 反映了这一转变,它专注于边缘优先优化、精简推理以及为实际部署而构建的端到端执行。

Link to this section速度的基础:以边缘计算为先的设计#

在边缘侧,性能由模型与设备实际硬件架构的匹配程度来定义。以边缘计算为先进行设计,可确保视觉系统在真实平台间可靠运行,无论其配备的处理单元组合如何。

以边缘计算为先的方法优先考虑跨异构硬件的可预测且高效的执行,而不是事后调整那些针对云端 GPU 优化的模型。简单来说,这意味着倾向于那些能很好地转化为神经网络加速器的操作,最大限度地减少模型外部的非神经网络工作,并减少可能拖慢端到端执行的不必要复杂性。

YOLO26 在设计时充分考虑了这些约束。其架构侧重于一致的性能,而非理想条件下的峰值吞吐量。通过简化执行路径和消除不必要的计算,YOLO26 降低了整个推理流水线的开销,并更好地利用了设备的可用加速功能和内存层级。

这种方法还提高了可靠性。以边缘计算为先的优化带来了更可预测的计时和更少的性能波动,这对实时系统至关重要。YOLO26 不依赖专用硬件或繁重的后处理来实现速度,而是强调整个推理流水线的效率。

Link to this section端到端推理与后处理的代价#

你可能想知道消除不必要的后处理步骤意味着什么。为了理解这一点,让我们退一步看看传统的目标检测系统是如何工作的。

在许多目标检测流水线中,推理并不会在模型产生预测时结束。相反,模型会输出大量重叠的边界框,这些边界框在被使用之前需要进行过滤和精炼。这种清理工作通过在模型本身之外运行的后处理步骤来完成。

最常见的后处理步骤之一是 非极大值抑制,即 NMS。NMS 比较重叠的边界框,仅保留置信度最高的检测结果,移除指向同一对象的重复项。虽然这种方法很有效,但它在推理完成后引入了额外的计算。

理解对象检测中的非极大值抑制

图 3. 了解 NMS。图片由作者提供。

在边缘侧,这种额外的工作是有代价的。像 NMS 这样的后处理步骤并不适合用于神经网络推理的专用加速器,因为这些加速器针对密集的神经网络计算进行了优化,而不是针对控制密集或内存密集型操作。

结果就是,NMS 引入了额外的延迟和内存开销,且其代价随着检测数量的增加而增长。即使模型本身很快,NMS 仍可能消耗掉总运行时间的很大一部分。

后处理还增加了系统复杂性。由于它存在于模型之外,因此必须为不同的运行时和硬件目标分别实现。这往往会导致特定于平台的代码路径、跨设备的不一致行为以及更脆弱的部署流水线。

最重要的是,后处理破坏了真正端到端性能的理念。衡量模型推理速度并不能反映系统在生产中的行为。最终重要的是从输入到最终输出的总时间,包括流水线中的每一步。

在这种情况下,后处理成为边缘侧的隐形瓶颈。它增加了延迟,消耗了 CPU 资源,并使部署复杂化,而这一切都发生在模型本身之外。

Link to this sectionYOLO26 如何移除 NMS 以及为什么这使其更快#

YOLO26 移除了 NMS,通过解决重复检测的根本原因,而不是在推理后进行清理。模型不是产生许多需要过滤的重叠预测,而是经过训练直接生成一组较小、置信度高且最终的检测结果。

这通过改变训练期间学习检测的方式得以实现。YOLO26 鼓励对象与预测之间建立更清晰的一一对应关系,从源头上减少了冗余。结果就是,重复检测在网络内部就得到了解决,而不是通过外部的后处理来解决。

移除 NMS 对边缘性能有着直接的影响。由于 NMS 与神经网络加速器不匹配,消除它减少了内存移动并避免了昂贵的非神经网络处理步骤。这降低了端到端延迟,使性能更具可预测性,尤其是在边缘设备上,否则后处理可能会消耗掉总运行时间的很大一部分。

它还简化了推理流水线。由于模型外部的步骤减少,数据移动更少,组件之间的交接也更少。模型的输出就是最终结果,这使得执行更加可预测。

Link to this section移除 DFL 以实现真正的端到端性能#

YOLO26 的另一项创新是移除了分布焦点损失 (DFL),它在早期 YOLO 模型中用于边界框回归。模型使用 DFL 不是直接预测单个坐标,而是学习可能值的分布,然后从该分布中推导出最终的边界框。这种方法有助于提高定位精度,是前几代模型向前迈出的重要一步。

然而,随着时间的推移,DFL 也引入了权衡。预测分布增加了计算量,增加了模型架构的复杂性,这可能会拖慢 CPU 上的推理,并使模型更难跨 部署格式 进行导出。DFL 还施加了固定的回归范围,这在检测非常大的对象时可能会限制灵活性。

YOLO26 移除了 DFL,作为其迈向更简单、端到端设计的一部分。边界框回归被重新设计得更加直接,在保持准确性的同时减少了不必要的计算。这一改变与 YOLO26 的无 NMS 方法相一致。

Link to this section43% 的 CPU 推理速度提升从何而来#

在基于 CPU 的基准测试中,YOLO26 比之前的 YOLO 模型表现出明显的性能提升。与 Ultralytics YOLO11 相比,YOLO26 nano 模型可实现高达 43% 的 CPU 推理速度提升,这一差异在实际边缘部署中具有重大影响。

YOLO26 CPU 推理速度基准测试

图 4. 对 YOLO26 CPU 速度进行基准测试。

这种增益来自于简化整个推理流水线,而非优化单个组件。端到端执行消除了后处理开销,更直接的边界框回归方法减少了计算,而 CPU 优先的设计选择提高了在通用处理器上的执行效率。

总之,这些变化降低了延迟,减轻了 CPU 工作负载,并带来了在真实边缘硬件上更快、更一致的性能。

Link to this sectionYOLO26 对边缘部署和导出的影响#

YOLO26 的性能提升不仅限于更快的推理。通过简化模型并降低内存开销,它变得更易于部署,在边缘环境中运行也更可靠。

YOLO26 的端到端设计也简化了 导出。由于辅助组件更少且没有外部后处理步骤,导出的模型完全是自包含的。这减少了特定于平台的依赖项,并有助于确保跨运行时和硬件目标的一致行为。

在实际应用中,这意味着 YOLO26 可以更轻松地使用各种导出格式部署到摄像机、机器人和嵌入式系统等边缘设备上。导出即运行,且集成步骤更少,部署漂移的风险更低。

Link to this section更快的边缘推理赋能机器人和工业视觉 AI#

到目前为止,我们已经了解了 YOLO26 的边缘优先设计如何从系统层面提升性能。然而,真正的意义在于它如何使视觉 AI 更容易集成到实际应用中。

例如,在 机器人 和工业环境中,视觉系统通常在严格的实时约束下运行。决策需要快速且一致地做出,且使用有限的计算资源,不能依赖云连接。有了 Ultralytics YOLO26,满足这些要求变得切实可行。

机器人导航和目标操纵等应用受益于更低的延迟和更可预测的推理,使机器人能够顺畅地响应环境变化。同样,在工业设置中,视觉模型可以直接在生产线上运行,以检测缺陷、跟踪组件和监控流程,而不会引入延迟或增加复杂性。

通过在边缘硬件上实现快速、可靠的推理,YOLO26 有助于使视觉 AI 成为机器人和工业系统的自然组成部分,而不是部署和维护的挑战。

Link to this section关键要点#

YOLO26 是为边缘计算而构建的,在这里,延迟、内存和可靠性等现实世界约束定义了可能实现的目标。通过围绕 CPU 优先执行、端到端推理和更简单的部署来设计模型,YOLO26 使得视觉 AI 集成到实际系统中变得切实可行。这种边缘优先的方法赋能了广泛的应用,从机器人和工业视觉到嵌入式和设备端 AI,在这些领域,性能和可预测性至关重要。

加入我们不断壮大的 社区,并探索我们的 GitHub 存储库 以获取实践性 AI 资源。要立即开始构建视觉 AI,请探索我们的 许可选项。请访问我们的解决方案页面,了解 AI 在农业领域 的应用如何改变农业生产,以及 医疗视觉 AI 如何塑造未来。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅