深圳Yolo 视觉
深圳
立即加入
词汇表

模型量化

了解模型量化如何优化适用于边缘AI的Ultralytics YOLO26。探索如何减少内存、降低延迟,并导出INT8模型以实现更快的推理。

模型量化是一种精密的模型优化技术,用于降低深度学习模型运行时的计算和内存成本。在标准训练工作流中,神经网络通常使用32位浮点数(FP32)存储参数(weights and biases)和激活图。虽然这种高精度确保了训练期间的计算准确性,但对于推理而言通常是不必要的。量化将这些值转换为低精度格式,例如16位浮点数(FP16)或8位整数(INT8),从而有效缩小模型大小并加速执行速度,同时不显著影响准确性

为什么量化很重要

量化的主要驱动因素是在资源受限的硬件上部署强大的AI。随着计算机视觉模型(如YOLO26)变得越来越复杂,其计算需求也随之增加。量化解决了三个关键瓶颈:

  • 内存占用:通过降低权重的位宽(例如,从32位到8位),模型的存储需求最多可减少4倍。这对于应用程序大小受限的移动应用至关重要。
  • 推理延迟:低精度操作的计算成本更低。现代处理器,尤其是那些配备专用神经网络处理器 (NPU)的处理器,执行INT8操作的速度比FP32快得多,从而显著降低了推理延迟
  • 功耗: 通过内存传输更少的数据并执行更简单的算术运算会消耗更少的能量,从而延长便携设备和 自动驾驶汽车 的电池续航时间。

与相关概念的比较

区分量化与其他优化技术至关重要,因为它们以不同的方式修改模型:

  • 量化与剪枝: 量化通过降低参数的位宽来减小文件大小,而 模型剪枝 则涉及完全移除不必要的连接(权重)以创建稀疏网络。剪枝改变了模型的结构,而量化改变了数据表示。
  • 量化与知识蒸馏: 知识蒸馏是一种训练技术,其中小型“学生”模型学习模仿大型“教师”模型。量化通常在蒸馏后应用于学生模型,以进一步提升边缘AI性能。

实际应用

量化使得计算机视觉和AI能够在效率至关重要的各个行业中得到应用。

  1. 自动系统:在汽车行业中,自动驾驶汽车必须实时处理来自摄像头和激光雷达的视觉数据。部署在NVIDIA TensorRT引擎上的量化模型使这些车辆能够以毫秒级延迟detect行人和障碍物,确保乘客安全。
  2. 智能农业:配备多光谱摄像头的无人机使用量化后的目标检测模型来识别作物病害或监测生长阶段。在无人机的嵌入式系统上本地运行这些模型,消除了在偏远地区对不可靠蜂窝连接的需求。

用Ultralytics实现量化

Ultralytics库简化了导出过程,允许开发者将尖端的YOLO26等模型转换为量化格式。Ultralytics Platform还提供了无缝管理这些部署的工具。

以下示例演示了如何将模型导出到启用INT8量化的TFLite。此过程涉及一个校准步骤,其中模型观察样本数据以确定量化值的最佳动态范围。

from ultralytics import YOLO

# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")

# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")

优化后的模型通常使用ONNX等可互操作标准或OpenVINO等高性能推理引擎进行部署,确保在不同硬件生态系统中的广泛兼容性。

让我们一起共建AI的未来!

开启您的机器学习未来之旅