敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

模型量化

通过模型量化优化 AI 性能。 缩小尺寸、提高速度并提高能源效率,以实现实际部署。

模型量化是一种强大的模型优化技术,它通过将神经网络 (NN)的权重和激活从高精度浮点数(如 32 位浮点或 FP32)转换为低精度数据类型(如 8 位整数 (INT8)),从而减少内存占用和计算成本。这个过程使模型更小、更快,从而能够在资源受限的硬件(如手机和嵌入式系统)上部署。其主要目标是提高性能,特别是推理延迟,同时尽量减少对模型预测准确性的影响。

模型量化如何工作

量化过程涉及将训练模型中浮点值的连续范围映射到较小的离散整数集合。这种转换减少了存储每个参数所需的位数,从而缩小了整体模型大小。此外,在许多现代 CPU 和专用 AI 加速器(如 GPUTPU)上,使用较低精度整数进行计算的速度要快得多,因为它们具有用于整数运算的专用指令。

应用量化主要有两种方法:

  1. 训练后量化 (PTQ): 这是最简单的方法,其中已训练好的模型被转换为较低精度格式。 这是一个快速的过程,涉及分析小校准数据集上的权重和激活分布,以确定从浮点到整数的最佳映射。
  2. Quantization-Aware Training (QAT)(量化感知训练): 在这种方法中,模型在模拟量化效果的同时进行训练或微调。训练过程的前向传播模拟量化的推理,使模型能够适应降低的精度。由于模型学会补偿训练阶段中潜在的信息丢失,因此 QAT 通常比 PTQ 产生更高的准确率。诸如 PyTorchTensorFlow 之类的框架提供了用于实现 QAT 的强大工具。

实际应用

量化对于在实际场景中运行复杂的计算机视觉模型至关重要,尤其是在 边缘 AI 设备上。

  • 设备端图像分析: 许多智能手机应用程序使用量化模型来实现实时功能。例如,一个通过摄像头提供实时目标检测的应用程序,例如识别产品或地标,依赖于像Ultralytics YOLO11这样的量化模型,以便在手机硬件上高效运行,而不会耗尽电池或需要云连接。
  • 汽车和机器人技术:自动驾驶汽车中,用于行人检测和车道保持的模型必须以极低的延迟运行。量化这些模型使它们能够在 NVIDIA JetsonGoogle Coral Edge TPU 等专用硬件上运行,从而确保在几分之一秒内做出决策,这对于安全至关重要。

量化与其他优化技术

模型量化通常与其他优化方法一起使用,但其方法不同。

  • 模型剪枝: 此技术删除神经网络中冗余或不重要的连接(权重),以减小其大小和复杂性。剪枝通过删除网络的部分来缩小网络,而量化通过降低剩余部分的数值精度来提高其效率。两者通常结合使用以实现最大程度的优化。
  • 知识蒸馏: 这涉及训练一个较小的“学生”模型来模仿一个较大的预训练“教师”模型。目的是将教师的知识转移到更紧凑的架构中。这与量化不同,量化修改现有模型的数值表示,而不是训练新模型。
  • 混合精度: 此技术在模型训练期间使用不同数值精度(例如 FP16 和 FP32)的组合,以加快训练过程并减少内存使用。虽然与量化相关,但它主要是一种训练优化方法,而量化通常侧重于优化模型的推理

考量与支持

虽然量化非常有益,但它可能会影响模型精度。量化后,必须使用相关的性能指标执行彻底的评估,以确保性能权衡是可以接受的。

Ultralytics 通过支持导出为量化友好的格式,从而促进量化模型的部署。这些格式包括用于广泛兼容性的ONNX、用于在英特尔硬件上进行优化的OpenVINO,以及用于在NVIDIA GPU上实现高性能的TensorRT。诸如Ultralytics HUB等平台可以帮助管理从训练到部署优化模型的整个生命周期。与Neural Magic等工具的集成还利用量化和剪枝在CPU上实现GPU级别的性能。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板