敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

计算机视觉中的剪枝和量化:快速指南

Abirami Vina

5 分钟阅读

2025年7月11日

了解为什么剪枝和量化对于优化计算机视觉模型以及在边缘设备上实现更快的性能至关重要。

随着技术的进步,边缘设备正变得越来越普遍。从跟踪您心率的智能手表到监控街道的无人机,边缘系统可以在设备本身内实时本地处理数据。 

与将数据发送到云端相比,此方法通常更快、更安全,尤其是在涉及个人数据的应用程序中,例如车牌检测或手势跟踪。这些都是计算机视觉的示例,计算机视觉是人工智能 (AI) 的一个分支,使机器能够解释和理解视觉信息。

图 1. 车牌检测示例。(来源

然而,一个重要的考虑因素是,此类应用需要能够处理繁重计算、使用最少资源并独立运行的视觉 AI 模型。大多数 计算机视觉模型都是为高性能系统开发的,因此不太适合直接部署在边缘设备上。 

为了弥合这一差距,开发人员通常会应用有针对性的优化,使模型能够高效地在较小的硬件上运行。这些调整对于实际的边缘部署至关重要,因为在这些部署中,内存和处理能力都受到限制。 

有趣的是,像 Ultralytics YOLO11 这样的计算机视觉模型在设计时已经考虑到了边缘效率,这使得它们非常适合实时任务。但是,可以使用模型优化技术(如剪枝和量化)进一步提高它们的性能,从而在受限设备上实现更快的推理和更低的资源使用。

在本文中,我们将仔细研究什么是剪枝和量化,它们如何工作,以及它们如何帮助 YOLO 模型在实际边缘部署中执行。让我们开始吧!

剪枝和量化:模型优化的核心技术

在准备用于边缘设备部署的视觉 AI 模型时,关键目标之一是在不牺牲性能的情况下使模型轻量化和可靠。 这通常涉及减小模型的大小和计算需求,以便它可以在内存、功率或处理能力有限的硬件上高效运行。 两种常见的方法是剪枝和量化。

剪枝是一种 AI 模型优化技术,有助于使神经网络更小、更高效。在许多情况下,模型的部分(例如某些连接或节点)对最终预测的贡献不大。剪枝的工作原理是识别并删除这些不太重要的部分,从而减小模型的大小并提高其性能。

另一方面,量化是一种优化技术,可以降低模型使用的数字的精度。模型不再依赖于高精度的 32 位浮点数,而是切换到更小、更高效的格式,如 8 位整数。这种改变有助于降低内存使用率并加快推理速度,即模型进行预测的过程。

图 2. 剪枝和量化概览。(来源

剪枝和量化如何工作

既然我们对剪枝和量化有了更深入的了解,那么让我们来了解一下它们是如何运作的。 

剪枝是使用一种称为敏感性分析的过程来完成的。它识别神经网络模型中的哪些部分(例如某些权重、神经元或通道)对最终输出预测的贡献最小。可以删除这些部分,而对准确性的影响最小。剪枝后,通常会重新训练模型以微调其性能。可以重复此循环以找到其大小和准确性之间的适当平衡。

同时,模型量化侧重于模型如何处理数据。它从校准开始,模型在样本数据上运行,以了解需要处理的值的范围。然后,这些值从 32 位浮点转换为较低精度的格式,如 8 位整数。

图 3. 量化有助于减小模型大小和复杂性。

有几种工具可以更轻松地在实际 AI 项目中使用剪枝和量化。大多数 AI 框架(如 PyTorch 和 TensorFlow)都包含对这些优化技术的内置支持,使开发人员能够直接将其集成到模型部署过程中。 

模型优化后,像 ONNX Runtime 这样的工具可以帮助它在各种硬件平台(如服务器、桌面和边缘设备)上高效运行。此外,Ultralytics 还提供集成,允许以适合量化的格式导出 YOLO 模型,从而更容易减小模型尺寸并提高性能。

Ultralytics YOLO 模型优化概述

Ultralytics YOLO 模型(如 YOLO11)以其快速的单步目标检测而广为人知,使其成为实时视觉 AI 任务的理想选择。它们的设计已经足够轻量化和高效,可以进行边缘部署。然而,负责处理视觉特征的层(称为卷积层)在推理过程中仍然需要相当大的计算能力。

您可能想知道:如果 YOLO11 已经针对边缘使用进行了优化,为什么还需要进一步优化?简而言之,并非所有边缘设备都相同。有些设备在非常小的硬件上运行,例如消耗的功率低于标准 LED 灯泡的微型嵌入式处理器。 

在这些情况下,即使是像 YOLO11 这样的精简模型也需要额外的优化,以保证流畅、可靠的性能。剪枝和量化等技术有助于减小模型的大小并加快推理速度,而不会显着影响准确性,这使得它们非常适合这种受限的环境。

为了更容易应用这些优化技术,Ultralytics 支持各种集成,可用于将 YOLO 模型导出为多种格式,如 ONNX、TensorRT、OpenVINO、CoreML 和 PaddlePaddle。每种格式都旨在与特定类型的硬件和部署环境良好配合。 

例如,由于 ONNX 与各种工具和平台的兼容性,它通常用于量化工作流程。另一方面,TensorRT 针对 NVIDIA 设备进行了高度优化,并支持使用 INT8 的低精度推理,使其成为在边缘 GPU 上进行高速部署的理想选择。

Ultralytics YOLO模型优化的有效用例

随着计算机视觉不断扩展到各种实际应用中,优化的 YOLO 模型使得在更小、更快的硬件上运行诸如目标检测、实例分割和目标跟踪等任务成为可能。接下来,让我们讨论几个使用剪枝和量化使这些计算机视觉任务更高效和实用的用例。

由YOLO11驱动的智能监控

许多工业场所和公共区域都依赖于实时监控来保持安全。诸如交通站、制造场所和大型户外设施等场所需要能够快速准确地检测人员或车辆的视觉AI系统。通常,这些场所的连接性和硬件都受到限制,这使得部署大型模型变得困难。

在这种情况下,像 YOLO11 这样优化的视觉 AI 模型是一个很好的解决方案。它体积小、性能快,非常适合在低功耗边缘设备(如嵌入式摄像头或智能传感器)上运行。这些模型可以直接在设备上处理视觉数据,从而能够实时检测安全违规、未经授权的访问或异常活动,而无需依赖持续的云访问。

图 4. YOLO11 可用于监控地铁站等公共场所。

使用 YOLO11 提高建筑工地的安全性

建筑工地是快节奏且不可预测的环境,到处都是重型机械、移动的工人和持续的活动。由于时间表的改变、设备移动,甚至天气的突然变化,情况可能会迅速变化。在如此动态的环境中,工人安全可能感觉像是一个持续的挑战。

实时监控起着至关重要的作用,但传统系统通常依赖于云访问或昂贵的硬件,这在现场可能不切实际。而 YOLO11 等模型可以在这方面发挥作用。YOLO11 经过优化后,可以在小型、高效的边缘设备上运行,这些设备可以直接在现场工作,而无需互联网连接。

例如,考虑一个大型建筑工地,例如跨越数英亩的高速公路扩建工程。 在这种类型的环境中,手动跟踪每辆车或每件设备可能既困难又耗时。 配备摄像头和优化后的 YOLO11 模型的无人机可以通过自动检测和跟踪车辆、监控交通流量以及识别未经授权的访问或不安全的驾驶行为等安全问题来提供帮助。

图 5. 分析来自建筑工地的无人机图像。

计算机视觉中剪枝和量化的优缺点

以下是剪枝和量化等计算机视觉模型优化方法提供的一些关键优势:

  • 经济高效的部署: 更小、更高效的模型可以减少对昂贵的高端硬件的需求,从而使 AI 在不同的用例中更易于访问和扩展。

  • 更低的延迟: 通过简化模型架构并减少计算开销,这些技术可以帮助在实时应用中实现更快的响应时间。

  • 能源效率:降低计算负载还可以降低功耗,这对于电池供电或移动系统尤其有帮助。

虽然剪枝和量化提供了许多优势,但它们也带来了一些权衡,开发人员在优化模型时应考虑这些权衡。以下是一些需要牢记的限制:

  • 准确率权衡:如果剪枝过于激进,或者使用了非常低的位量化,则模型的准确率(以 mAP 等指标衡量)可能会下降。

  • 硬件约束:并非所有设备都同样支持较低精度的格式(如 INT8)。这会限制优化模型可以部署的位置和方式。

  • 实施复杂性: 获得良好的结果通常需要仔细的、特定于模型的调整。 开发人员可能需要重新训练模型并执行广泛的测试,以在提高效率的同时保持性能。

主要要点

剪枝和量化是有效的技术,可以帮助 YOLO 模型在边缘设备上表现更好。它们可以减小模型的大小,降低其计算需求,并加快预测速度,而且不会明显降低准确性。

这些优化方法还使开发人员可以灵活地调整适用于不同类型硬件的模型,而无需完全重建它们。通过一些调整和测试,在实际情况下应用视觉 AI 变得更加容易。

加入我们不断壮大的社区!探索我们的GitHub 代码仓库,以了解更多关于人工智能的信息。准备好开始您的计算机视觉项目了吗?查看我们的许可选项。访问我们的解决方案页面,了解农业领域的人工智能和医疗保健领域的视觉人工智能! 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板