词汇表

量化感知训练 (QAT)

使用量化感知训练 (QAT) 优化边缘设备的 AI 模型，确保在资源受限的环境中实现高精度和高效率。

量化感知训练 (QAT) 是一种先进的模型优化技术，它为神经网络 (NN)准备好以较低的数值精度进行部署。与使用 32 位浮点数 (FP32) 的标准训练不同，QAT 在训练或微调过程中模拟 8 位整数 (INT8) 计算的影响。通过使模型“感知”它在推理期间将遇到的量化误差，QAT 允许模型调整其权重，以最大限度地减少准确率的潜在损失。这会产生一个紧凑、高效的模型，该模型保持高性能，使其非常适合在资源受限的硬件上部署。

量化感知训练的工作原理

QAT 过程通常从预训练的 FP32 模型开始。将“伪”量化节点插入到模型的架构中，这些节点模拟将浮点值转换为较低精度整数并返回的效果。然后，在训练数据集上重新训练模型。在此重新训练阶段，模型学习通过标准反向传播来适应与量化相关的信息丢失。这允许模型找到一组更强大的权重，这些权重对降低的精度不太敏感。诸如 PyTorch 和 TensorFlow 等领先的深度学习框架提供了强大的工具和 API 来实现 QAT 工作流程。

QAT 与训练后量化

QAT 经常与训练后量化 (PTQ) 进行比较，后者是另一种常见的模型量化方法。主要区别在于应用量化的时间。

训练后量化 (PTQ)： 此方法在模型完全训练后应用。这是一个更简单、更快速的过程，不需要重新训练或访问原始训练数据。但是，有时会导致模型精度显着下降，特别是对于敏感模型。
量化感知训练 (QAT)： 此方法将量化集成到训练循环中。虽然它的计算量更大并且需要访问训练数据，但与 PTQ 相比，QAT 几乎总是为最终量化模型带来更高的准确性。当最大化性能至关重要时，它是首选方法。

QAT 的实际应用

量化感知训练对于在资源受限且效率至关重要的环境中部署复杂的AI模型至关重要。

设备端计算机视觉： 在智能手机上直接运行复杂的计算机视觉模型，例如Ultralytics YOLOv8，用于增强现实应用中的实时目标检测或照片管理工具中的图像分类等应用。QAT 使这些模型能够高效运行，而不会显著消耗电池电量或产生延迟。
汽车和机器人领域的 Edge AI： 在自动驾驶汽车中部署用于行人检测或车道保持辅助等任务的模型，或在机器人技术中部署用于物体操作的模型。QAT 使这些模型能够在 Google Edge TPU 或 NVIDIA Jetson 等专用硬件上运行，从而确保关键实时决策的低推理延迟。这对于安全警报系统或停车管理等应用至关重要。

与其他优化技术的关系

QAT 是模型部署优化的几种技术之一，通常与其他技术一起使用以实现最大效率。

模型剪枝: 涉及删除网络中冗余或不重要的连接。可以先对模型进行剪枝，然后再进行 QAT（量化感知训练），以实现更大的压缩。
知识蒸馏: 训练一个较小的“学生”模型来模仿一个较大的“教师”模型。然后可以使用 QAT 进一步优化生成的学生模型。

Ultralytics 支持将模型导出为各种格式，如 ONNX、TensorRT 和 TFLite，这些格式与 QAT 工作流程兼容，从而可以在 Intel 和 NVIDIA 等公司的各种硬件上实现高效部署。您可以使用 Ultralytics HUB 等平台来管理和部署您的 QAT 优化模型。使用相关的指标评估 QAT 后的模型性能对于确保满足准确性要求至关重要。

量化感知训练 (QAT)

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

量化感知训练的工作原理

QAT 与训练后量化

QAT 的实际应用

与其他优化技术的关系

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区