计算机视觉中的剪枝与量化:快速指南
发现为什么剪枝(Pruning)和量化(Quantization)对于优化计算机视觉模型并在边缘设备上实现更快的性能至关重要。

随着技术的进步,边缘设备正变得日益普及。从监测心率的智能手表到巡视街道的无人机,边缘系统能够在设备本地实时处理数据。
这种方法通常比将数据发送到云端更快、更安全,特别是对于涉及个人数据的应用,例如车牌检测或手势跟踪。这些都是计算机视觉的示例,这是人工智能 (AI) 的一个分支,旨在使机器能够解析和理解视觉信息。

图 1. 车牌检测示例。(来源)
然而,一个重要的考虑因素是,此类应用需要能够处理繁重计算、使用极少资源并独立运行的视觉 AI 模型。大多数计算机视觉模型是为高性能系统开发的,这使得它们不太适合直接在边缘设备上部署。
为了弥补这一差距,开发者通常会采用针对性的优化手段,使模型能够适应更小的硬件并高效运行。这些调整对于现实世界的边缘部署至关重要,因为在这些场景中,内存和处理能力都十分有限。
有趣的是,像Ultralytics YOLO11这样的计算机视觉模型在设计之初就已经考虑到了边缘计算的效率,这使它们非常适合实时任务。不过,通过剪枝和量化等模型优化技术,它们的性能可以进一步提升,从而在受限设备上实现更快的推理速度和更低的资源占用。
在本文中,我们将深入探讨什么是剪枝和量化,它们是如何工作的,以及它们如何帮助 YOLO 模型在现实世界的边缘部署中发挥作用。让我们开始吧!
Link to this section剪枝与量化:模型优化的核心技术#
在为边缘设备准备视觉 AI 模型时,核心目标之一是在不牺牲性能的前提下,使模型变得轻量且可靠。这通常涉及减少模型的规模和计算需求,以便它能在内存、功耗或处理能力受限的硬件上高效运行。实现这一目标的两种常见方法是剪枝和量化。
剪枝是一种 AI 模型优化技术,有助于使神经网络更小、更高效。在许多情况下,模型的一部分(如某些连接或节点)对最终预测贡献不大。剪枝通过识别并移除这些不重要的部分来起作用,从而缩小模型规模并提升其性能。
另一方面,量化是一种通过降低模型所用数值精度来进行优化的技术。模型不再依赖高精度的 32 位浮点数,而是切换到更小、更高效的格式,如 8 位整数。这种变化有助于降低内存占用并加速推理过程,即模型进行预测的过程。

图 2. 剪枝与量化概览。(来源)
Link to this section剪枝与量化的工作原理#
现在我们已经对剪枝和量化有了更好的了解,让我们来看看它们是如何工作的。
剪枝是通过一种称为灵敏度分析的过程完成的。它会识别出神经网络模型中哪些部分(如特定的权重、神经元或通道)对最终输出预测的贡献最小。这些部分可以在对准确度影响最小的情况下被移除。剪枝后,模型通常会经过再训练以微调性能。此循环可以重复进行,以找到模型规模与准确度之间的平衡点。
同时,模型量化则侧重于模型如何处理数据。它从校准开始,模型在样本数据上运行以学习其需要处理的数值范围。然后,这些数值会从 32 位浮点数转换为较低精度的格式,如 8 位整数。

图 3. 量化有助于减少模型规模和复杂性。(来源)
有多种工具可以简化在现实 AI 项目中应用剪枝和量化的过程。大多数 AI 框架,如 PyTorch 和 TensorFlow,都内置了对这些优化技术的支持,允许开发者直接将它们集成到模型部署流程中。
一旦模型完成优化,像 ONNX Runtime 这样的工具可以帮助其在服务器、桌面端和边缘设备等各种硬件平台上高效运行。此外,Ultralytics 提供的集成功能允许将 YOLO 模型导出为适合量化的格式,从而更轻松地减小模型尺寸并提高性能。
Link to this sectionUltralytics YOLO 模型优化概览#
Ultralytics YOLO 模型(如 YOLO11)以其快速、单步的目标检测而广为人知,非常适合实时视觉 AI 任务。它们在设计之初就已足够轻量高效,可用于边缘部署。然而,负责处理视觉特征的层(即卷积层)在推理过程中仍可能需要相当大的计算能力。
你可能想问:既然 YOLO11 已经针对边缘使用进行了优化,为什么还需要进一步优化?简单来说,并非所有的边缘设备都一样。有些设备运行在非常基础的硬件上,例如功耗比标准 LED 灯泡还小的微型嵌入式处理器。
在这些情况下,即使是像 YOLO11 这样精简的模型也需要额外的优化,以确保流畅、可靠的性能。剪枝和量化等技术有助于在不显著影响准确度的情况下减小模型规模并加速推理,使它们成为此类受限环境的理想选择。
为了更轻松地应用这些优化技术,Ultralytics 支持各种集成,可以将 YOLO 模型导出为多种格式,例如 ONNX、TensorRT、OpenVINO、CoreML 和 PaddlePaddle。每种格式都旨在与特定类型的硬件和部署环境良好配合。
例如,由于 ONNX 与多种工具和平台的兼容性,它经常被用于量化工作流。另一方面,TensorRT 针对 NVIDIA 设备进行了高度优化,并支持使用 INT8 进行低精度推理,使其成为在边缘 GPU 上进行高速部署的理想选择。
Link to this sectionUltralytics YOLO 模型优化的典型应用案例#
随着计算机视觉不断扩展到各种现实应用中,优化后的 YOLO 模型使得在更小、更快的硬件上运行目标检测、实例分割和目标跟踪等任务成为可能。接下来,让我们讨论几个剪枝和量化使这些计算机视觉任务变得更高效、更实用的应用案例。
Link to this section由 YOLO11 驱动的智能监控#
许多工业空间和公共区域依靠实时监控来保持安全。交通枢纽、制造场地和大型户外设施等场所需要能够快速准确检测人员或车辆的视觉 AI 系统。通常,这些地点在连接性和硬件条件上存在限制,这使得部署大型模型变得困难。
在这些情况下,像 YOLO11 这样经过优化的视觉 AI 模型是一个绝佳的解决方案。其紧凑的尺寸和快速的性能使其非常适合在嵌入式摄像头或智能传感器等低功耗边缘设备上运行。这些模型可以直接在设备上处理视觉数据,从而无需依赖持续的云连接,即可实现对安全违规、未经授权的访问或异常活动的实时检测。

图 4. YOLO11 可用于监控地铁站等公共场所。
Link to this section利用 YOLO11 提升施工现场的安全#
施工现场环境节奏快且不可预测,到处都是重型机械、走动的工人以及持续的活动。由于时间表的变动、设备移动,甚至天气的突然变化,现场条件可能会迅速改变。在这样动态的环境中,保障工人安全是一项持续的挑战。
实时监控起着至关重要的作用,但传统系统往往依赖云端连接或昂贵的硬件,这在现场可能并不实用。这时 YOLO11 这类模型就能发挥重要作用。YOLO11 可以经过优化,在小型、高效的边缘设备上运行,这些设备直接在现场工作,无需互联网连接。
例如,考虑一个像高速公路扩建这样占地数英亩的大型施工现场。在这种环境下,手动跟踪每一辆车或每一台设备既困难又耗时。配备摄像头和优化后 YOLO11 模型的无人机可以辅助工作,自动检测并跟踪车辆、监控交通流,并识别诸如未经授权的进入或不安全驾驶行为等安全问题。

图 5. 分析来自施工现场的无人机图像。(来源)
Link to this section计算机视觉中剪枝与量化的优缺点#
以下是剪枝和量化等计算机视觉模型优化方法所提供的一些关键优势:
- 经济高效的部署: 更小、更高效的模型可以减少对昂贵高端硬件的需求,使 AI 在不同应用场景中更具可访问性和可扩展性。
- 更低的延迟: 通过简化模型架构并减少计算开销,这些技术有助于在实时应用中实现更快的响应时间。
- 能源效率: 降低计算负载还可以减少功耗,这对于电池供电或移动系统尤为重要。
尽管剪枝和量化提供了许多优势,但它们也伴随着开发者在优化模型时必须考虑的一些权衡。以下是一些需要记住的局限性:
- 准确度权衡: 如果剪枝过于激进或使用了极低位数的量化,模型准确度(以 mAP 等指标衡量)可能会下降。
- 硬件约束: 并非所有设备都能同样出色地支持 INT8 等低精度格式。这可能会限制优化后模型的部署位置和方式。
- 实现复杂度: 要获得良好的结果,通常需要针对特定模型进行仔细的调优。开发者可能需要重新训练模型并进行广泛测试,以在提升效率的同时保持性能。
Link to this section关键要点#
剪枝和量化是有用的技术,可以帮助 YOLO 模型在边缘设备上表现更好。它们减小了模型规模,降低了计算需求,并加快了预测速度,且不会造成明显的准确度损失。
这些优化方法还为开发者提供了灵活性,使其能够针对不同类型的硬件调整模型,而无需完全重建。通过一些调优和测试,将视觉 AI 应用于现实情况变得更加容易。
加入我们不断壮大的社区!探索我们的 GitHub 仓库以了解更多关于 AI 的知识。准备好开启你的计算机视觉项目了吗?查看我们的许可选项。访问我们的解决方案页面,发现农业 AI 和医疗保健视觉 AI 的应用!






