深圳Yolo 视觉
深圳
立即加入
词汇表

模型量化

通过模型量化优化 AI 性能。 缩小尺寸、提高速度并提高能源效率,以实现实际部署。

模型量化是机器学习中的一项变革性技术 模型量化是机器学习中的一项变革性技术,旨在降低 的计算和内存成本。 神经网络的计算和内存成本。通过将模型的 参数(特别是权重和激活)从高精度浮点数(通常为 32 位,称为 FP32)转换为 8 位整数(INT8)等低精度格式,开发人员可以显著缩小模型的文件大小。 模型的文件大小。这一过程对于 在资源有限的硬件上高效部署模型 这一过程对于在资源有限的硬件上高效部署模型至关重要,可确保复杂的人工智能功能在从智能手机到工业传感器的所有设备上顺利运行。 工业传感器上顺利运行。

模型量化如何工作

量化的核心机制是将较大范围的连续值映射为较小范围的离散值。 值。在典型的深度学习模型中,参数被存储为 32 位浮点数,以便在训练阶段保持高精度。 精度。然而,在 推理--模型进行预测的阶段--往往不需要这种精度水平。

量化可以压缩这些值,从而降低获取模型权重所需的内存带宽,并加快数学运算速度。 模型权重所需的内存带宽,并加快数学运算 运算。现代硬件,包括CPUGPU等专用 加速器(如GPU)等现代硬件通常都有专门的 整数运算专用指令集,比浮点运算更快、更节能。 更快、更省电。这种优化有助于最大限度地减少 推理延迟,在实时应用中提供更快速的用户体验。 用户体验。

量化类型

应用这种优化有两种主要方法,分别服务于开发周期的不同阶段 生命周期:

  • 训练后量化(PTQ):这种方法在模型完全训练完成后使用。它 需要一个校准数据集来确定激活和权重的动态范围。像 TensorFlow Lite 等工具为 PTQ 提供了强大的支持,使其成为快速优化的热门选择。
  • 量化感知训练(QAT):在这种方法中,模型会在训练过程中模拟量化效果。 量化的影响。通过引入 "假 "量化节点,网络 学习适应较低的精度,通常能获得比 PTQ 更高的精度保持率。您可以在我们的 有关这一特定技术的更多信息,请参阅我们的 量化感知训练 (QAT) 页面了解更多。

实际应用

量化是边缘人工智能的基石,可使复杂的 任务,而无需依赖云连接。

  1. 移动计算机视觉:提供实时背景模糊或人脸滤镜等功能的智能手机应用 人脸滤镜等功能的智能手机应用程序都依赖于量化模型。例如,在手机上运行 例如,在手机上运行物体检测模型需要高 效率,以防止电池耗尽和过热。
  2. 工业物联网和机器人技术:在 在机器人技术中,自主装置通常使用电池供电 并使用嵌入式处理器,如 NVIDIA Jetson 等嵌入式处理器。量化模型使这些 机器人在处理导航和避障所需的视觉数据时,能将延迟降到最低,这对自动驾驶车辆的安全至关重要。 这对自动驾驶车辆的安全性至关重要。

使用Ultralytics YOLO实现量化

Ultralytics 框架简化了将模型导出为量化友好格式的过程。下面的 示例演示了如何将 YOLO11模型导出为TFLite 并启用 INT8 量化。此过程将使用指定数据自动处理校准。

from ultralytics import YOLO

# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")

# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")

量化与其他优化技术

将量化与其他 模型优化策略、 因为它们经常同时使用,但运作方式不同:

  • 量化与剪枝量化降低了权重的精度模型剪枝则是将不必要的连接(权重 连接(权重)以创建稀疏网络。剪枝改变的是结构,而量化 改变的是数据类型。
  • 量化与蒸馏: 知识蒸馏训练一个较小的 学生模型来模仿较大的教师模型。之后可对学生模型进行量化,以进一步缩小其规模。 缩小其规模。
  • 量化与混合精度: 混合精度主要是一种训练技术 混合精度主要是一种训练技术,它混合使用 FP16 和 FP32 来加快训练速度并减少 GPU 的内存使用量,而量化 通常是使用整数进行推理时的优化。

未来发展

随着硬件加速器越来越专业化,量化的重要性也与日俱增。未来的Ultralytics 研究,如即将推出的YOLO26,旨在通过设计对激进量化具有本机鲁棒性的架构,进一步提高 通过设计对激进量化具有本机鲁棒性的架构,进一步提高效率,确保 高性能计算机视觉 在最小的边缘设备上也能实现。

为了实现更广泛的兼容性,量化模型通常使用互操作标准进行部署,如 ONNX或优化推理 引擎,如 TensorRTOpenVINO.

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入