通过模型量化优化 AI 性能。 缩小尺寸、提高速度并提高能源效率,以实现实际部署。
模型量化是一种强大的模型优化技术,它通过将神经网络 (NN)的权重和激活从高精度浮点数(如 32 位浮点或 FP32)转换为低精度数据类型(如 8 位整数 (INT8)),从而减少内存占用和计算成本。这个过程使模型更小、更快,从而能够在资源受限的硬件(如手机和嵌入式系统)上部署。其主要目标是提高性能,特别是推理延迟,同时尽量减少对模型预测准确性的影响。
量化过程涉及将训练模型中浮点值的连续范围映射到较小的离散整数集合。这种转换减少了存储每个参数所需的位数,从而缩小了整体模型大小。此外,在许多现代 CPU 和专用 AI 加速器(如 GPU 和 TPU)上,使用较低精度整数进行计算的速度要快得多,因为它们具有用于整数运算的专用指令。
应用量化主要有两种方法:
量化对于在实际场景中运行复杂的计算机视觉模型至关重要,尤其是在 边缘 AI 设备上。
模型量化通常与其他优化方法一起使用,但其方法不同。
虽然量化非常有益,但它可能会影响模型精度。量化后,必须使用相关的性能指标执行彻底的评估,以确保性能权衡是可以接受的。
Ultralytics 通过支持导出为量化友好的格式,从而促进量化模型的部署。这些格式包括用于广泛兼容性的ONNX、用于在英特尔硬件上进行优化的OpenVINO,以及用于在NVIDIA GPU上实现高性能的TensorRT。诸如Ultralytics HUB等平台可以帮助管理从训练到部署优化模型的整个生命周期。与Neural Magic等工具的集成还利用量化和剪枝在CPU上实现GPU级别的性能。