利用量化感知训练(QAT)优化边缘设备的人工智能模型,确保在资源有限的环境中实现高精度和高效率。
量化感知训练(QAT)是一种用于优化深度学习(DL)模型的强大技术,例如 Ultralytics YOLO模型,以便在计算资源有限的设备(如手机或嵌入式系统)上部署。标准模型通常使用高精度数(如 32 位浮点数或FP32)进行计算,这需要大量的处理能力和内存。QAT 的目的是通过在训练阶段为模型做好准备,使其在使用低精度数(如 8 位整数或INT8)时也能表现出色,从而缩小边缘设备上高精度和高效性能之间的差距,从而降低这种需求。这种优化对于在智能手机 或物联网传感器等硬件上直接执行复杂的人工智能任务至关重要。
与在模型完全训练完成后才对其进行量化的方法不同,QAT 将量化效果的模拟直接集成到训练过程中。在训练过程中,它在模型架构中引入了称为 "假量化 "节点的操作。这些节点会在前向传递过程中模拟较低精度(如INT8 精度)对模型权重和激活的影响,将数值四舍五入,就像在真正量化的模型中一样。但是,在后向传递过程中(模型通过反向传播进行学习),通常使用标准的高精度浮点数来计算梯度和应用更新。这样,模型的参数就能适应和学习实际量化推理过程中出现的精度损失。通过在训练过程中 "看到 "量化的影响,模型可以最大限度地减少在低精度格式下部署模型时经常出现的精度下降,这也是模型优化策略中讨论的一个关键方面。TensorFlow Lite和 PyTorch等框架提供了实现 QAT 的工具。
量化感知训练对于在资源有限的环境中部署复杂的人工智能模型至关重要,因为效率是关键所在。
Ultralytics 支持将模型导出为各种格式,如 ONNX, TensorRT和TFLite 等多种格式,这些格式与 QAT 工作流程兼容,可以在各种硬件上高效部署。您可以使用Ultralytics HUB 等平台管理和部署经过 QAT 优化的模型。在 QAT 之后使用相关指标评估模型性能对于确保满足准确性要求至关重要。