深圳Yolo 视觉
深圳
立即加入

Ultralytics 边缘优先设计带来的影响

了解Ultralytics 如何在边缘计算中实现更快的处理速度,以及这对要求低延迟和高效能的下一代计算机视觉应用为何至关重要。

本周早些时候Ultralytics Ultralytics ——一款更快、更轻量、更小巧YOLO ,旨在重新定义计算机视觉系统在边缘端的运行方式。YOLO26支持与YOLO 相同的核心视觉任务,包括目标检测和实例分割。

图1. 使用YOLO26进行segment 的示例。

YOLO26与先前模型的根本区别在于其设计运行的环境。该模型并非主要针对云端图形处理单元(GPU)或基准驱动性能进行优化,而是从零开始专为在边缘设备和嵌入式硬件上的实际部署而设计。

随着计算机视觉技术从研究走向生产应用,性能限制的现实正日益凸显。边缘计算环境受限于严格的延迟预算、有限的内存、功耗及热量约束,同时需要在多样化平台上实现可预测的行为表现。

在这些场景中,整体系统性能不仅取决于原始推理速度,还取决于整个管道的运行效率。后处理开销、内存压力以及平台特有的执行路径往往成为性能瓶颈。

YOLO26通过采用更快速的边缘优先方法来应对这些挑战,该方法关注整个推理管道而非单个模型指标。通过聚焦边缘优化、简化推理管道并去除多余的后处理步骤,YOLO26实现了速度提升,从而在生产环境中降低延迟并增强行为可靠性。

本文将探讨YOLO26的架构设计如何转化为实际性能提升,以及边缘计算速度的提升如何从根本上改变新一代计算机视觉应用的可能性。 

边缘部署的现实

在边缘设备上运行计算机视觉模型与在云端运行截然不同。在云环境中,系统通常能访问强大的GPU、海量内存和稳定的硬件。而在边缘设备上,这些条件并不存在。 

大多数边缘部署运行在多样化的硬件架构上,而非GPU。设备通常采用多款专用处理器执行不同任务,这些处理器侧重效率和低功耗优化,而非云端GPU的原始计算能力。

延迟是另一项主要限制因素。边缘系统通常在严格的实时限制下运行,即使微小的延迟也会影响响应速度或安全性。在这种情况下,端到端延迟比原始推理速度更为关键。模型在理论上可能运行迅速,但一旦加入后处理和数据传输环节,其性能仍可能无法达标。

内存同样扮演着重要角色。许多边缘设备内存有限且采用共享缓存机制。即使模型本身效率很高,大型中间张量和低效的内存使用也会导致系统运行变慢。

功耗和热量限制带来了更多约束。边缘设备通常在无主动散热的情况下运行,且受限于固定的功耗预算。性能需要高效且可持续,而不仅仅是短暂爆发式的快速。

除此之外,边缘部署还要求一致性。模型在不同设备和运行时环境中必须表现一致。特定平台的代码或复杂的后处理步骤可能引入细微差异,导致系统更难部署和维护。

图2. 边缘部署的约束条件一览。作者绘制。

这些限制条件定义了边缘计算中性能的真正含义。换言之,性能是由整个管道定义的,而非单一指标。

边缘视觉为何需要不同的性能模型

那么,边缘部署的限制与为边缘构建的计算机视觉模型需求之间有何关联?当模型从研究环境迁移到实际系统时,这种关联便显而易见。

在云环境中,性能通常通过推理速度和准确率等基准指标来衡量。而在边缘计算场景中,这些指标仅能反映部分情况。视觉系统通常运行于异构硬件平台,其中神经网络推理任务被卸载至专用加速器处理,而管道中的其他环节则在通用处理器上运行。

在此背景下,仅关注模型速度是不够的。关键在于模型部署后整个系统的运行表现。模型本身可能看似运行迅速,但若后处理、数据传输或平台特定步骤增加了额外开销,整体性能仍可能不尽如人意。

正因如此,边缘视觉需要一种注重系统级效率而非孤立基准测试的性能模型。YOLO26通过聚焦边缘优先优化、精简推理流程以及为实际部署打造的端到端执行机制,体现了这种转变。

速度之基:优先边缘设计

在边缘端,性能取决于模型与设备实际硬件架构的适配程度。优先为边缘端设计可确保视觉系统在各类真实平台上稳定运行,无论其搭载何种处理单元组合。

边缘优先策略侧重于在异构硬件上实现可预测的高效执行,而非事后调整为云端GPU优化的模型。简而言之,这意味着优先采用能良好适配神经网络加速器的运算方式,最大限度减少模型外的非神经网络工作负载,并降低可能拖慢端到端执行效率的冗余复杂性。

YOLO26的设计充分考虑了这些限制条件。其架构侧重于稳定的性能表现,而非理想条件下的峰值吞吐量。通过简化执行路径并消除冗余计算,YOLO26有效降低了推理管道的开销,同时更充分地利用了设备现有的加速能力和内存分层架构。

这种方法还提高了可靠性。边缘优先优化能带来更可预测的时序和更少的性能波动,这对实时系统至关重要。YOLO26 并未依赖专用硬件或繁重的后处理来提升速度,而是着重优化整个推理管道的效率。

端到端推理与后处理成本

您或许在思考,消除不必要的后处理步骤究竟意味着什么。要理解这一点,让我们退一步审视传统目标检测系统的运作方式。

在许多目标检测管道中,推理并非在模型输出预测结果后就结束。相反,模型会输出大量重叠的边界框,这些边界框需要经过过滤和优化才能投入使用。这种清理工作通过在模型外部运行的后处理步骤来完成。

最常见的后处理步骤之一是非最大抑制(NMS。NMS 重叠的边界框,仅保留置信度最高的检测结果,从而消除指向同一物体的重复检测。尽管这种方法效果显著,但在推理完成后会引入额外的计算开销。

图3.NMS。图由作者绘制。

在边缘端,这些额外工作需要付出代价。NMS (邻域消除)之类的后处理步骤NMS 神经网络推理的专用加速器——这些加速器专为密集型神经计算优化,而非针对控制密集型或内存密集型操作。 

因此,NMS 额外的延迟和内存开销,且其成本会随着检测数量的增加而增长。即使模型本身运行迅速,NMS 仍NMS 消耗总运行时间的相当大一部分。

后处理还会增加系统复杂性。由于它存在于模型之外,必须针对不同的运行时和硬件目标分别实现。这往往导致平台专属的代码路径、跨设备行为不一致,以及更脆弱的部署管道。

最重要的是,后处理打破了真正端到端性能的概念。测量模型推理速度并不能反映系统在生产环境中的实际表现。真正重要的是从输入到最终输出的总耗时,包括管道中的每个步骤。

在这些场景中,后处理成为边缘计算中的隐性瓶颈。它不仅增加延迟、消耗CPU 、复杂化部署流程,更关键的是——这些操作完全发生在模型之外。

YOLO26如何消除NMS 加速原理

YOLO26通过解决重复检测的根本原因来消除NMS,而非在推理后进行清理。该模型经过训练,能够直接生成更小的一组可信的最终检测结果,而非产生大量需要过滤的重叠预测。

这是通过改变训练过程中检测模型的学习方式实现的。YOLO26 鼓励物体与预测结果之间建立更清晰的一对一关系,从而从源头上减少冗余。因此,重复检测问题得以在网络内部解决,而非依赖外部后处理。

移除NMS 立即NMS 边缘性能。由于NMS 很好地映射到神经网络加速器,消除它可减少内存移动并避免昂贵的非神经网络处理步骤。这降低了端到端延迟,使性能更可预测——尤其在边缘设备上,否则后处理会消耗总运行时间的显著部分。

它还简化了推理管道。模型外部步骤减少后,数据移动量降低,组件间的交接也更少。模型的输出即为最终结果,这使得执行过程更具可预测性。

移除DFL以实现真正的端到端性能

YOLO26的另一项创新在于移除了分布式焦点损失(DFL)。该机制在早期YOLO 用于边界框回归:相较于直接预测单一坐标,采用DFL的模型会学习可能值的分布,再从该分布中推导出最终边界框。这种方法有效提升了定位精度,成为前代模型的重要进步。

然而随着时间推移,深度场也带来了权衡取舍。预测分布会增加计算量并提升模型架构的复杂度,这可能减慢CPU上的推理速度,并使模型更难在不同部署格式间迁移。深度场还强制规定了固定的回归范围,这在检测超大物体时可能限制灵活性。

YOLO26为实现更简洁的端到端设计,移除了DFL模块。边界框回归经过重新设计,使其更直接,在保持精度的同时减少了不必要的计算。这一变更与NMS的方法相契合。

43%CPU 性能从何而来

在CPU基准测试中,YOLO26相较于早期YOLO 展现出显著的性能提升。与 Ultralytics YOLO11相比,YOLO26 nano模型实现了高达43%CPU 加速,这一差异在实际边缘部署场景中具有显著意义。

图4. YOLO26CPU 基准测试。

这种性能提升源于对完整推理管道的简化,而非对单一组件的优化。端到端执行消除了后处理开销,更直接的边界框回归方法减少了计算量,而CPU的设计策略则提升了通用处理器上的执行效率。

这些改进共同降低了延迟,减轻CPU ,从而在实际边缘硬件上实现了更快、更稳定的性能表现。

YOLO26对边缘部署和出口的影响

YOLO26的性能提升不仅体现在更快的推理速度上。通过简化模型结构并降低内存开销,该模型在边缘环境中的部署更为便捷,运行可靠性也显著增强。

YOLO26的端到端设计也简化了模型导出流程。由于辅助组件更少且无需外部后处理步骤,导出的模型完全自包含。这减少了平台特有的依赖性,有助于确保在不同运行时和硬件目标上行为一致。

在实际应用中,这意味着YOLO26能够更轻松地部署到边缘设备(如摄像头、机器人和嵌入式系统),并支持多种导出格式。导出即运行,减少了集成步骤,降低了部署漂移的风险。

更快的边缘推理助力机器人与工业视觉人工智能

迄今为止,我们探讨了YOLO26的边缘优先设计如何提升系统级性能。然而其真正的价值在于,它使视觉人工智能更易于集成到现实世界应用中。

例如,在机器人和工业环境中,视觉系统通常在严格的实时约束下运行。决策需要快速且一致地完成,仅使用有限的计算资源,且不依赖云端连接。Ultralytics ,满足这些要求变得切实可行。

机器人导航和物体操作等应用受益于更低的延迟和更可预测的推理能力,使机器人能够对环境变化做出流畅响应。同样,在工业场景中,视觉模型可直接在生产线上运行,用于detect 、track 监控流程,且不会引入延迟或增加复杂性。

通过在边缘硬件上实现快速可靠的推理,YOLO26使视觉人工智能成为机器人和工业系统中自然而然的一部分,而非部署和维护的难题。

主要要点

YOLO26专为边缘计算而生,在延迟、内存和可靠性等现实约束条件下定义技术边界。通过围绕CPU执行、端到端推理和简化部署进行模型设计,YOLO26使视觉AI能够切实集成到真实系统中。这种边缘优先策略支持广泛应用场景——从机器人与工业视觉到嵌入式及设备端AI——在这些领域,性能与可预测性至关重要。

加入我们不断壮大的社区,探索我们的GitHub 存储库,获取人工智能实践资源。要立即使用 Vision AI 进行构建,请探索我们的许可选项。访问我们的解决方案页面,了解农业人工智能如何改变农业生产,以及Vision AI如何在医疗保健领域塑造未来。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始