词汇表

混合精度

通过混合精度训练提高深度学习效率！在不牺牲准确性的前提下，实现更快的速度、更少的内存使用和节能。

混合精度是深度学习中使用的一种技术，旨在加速模型训练并减少内存消耗。它涉及在计算过程中使用低精度数值格式（如16位浮点数（FP16））和高精度格式（如32位浮点数（FP32））的组合。通过有策略地对模型的某些部分（如权重乘法）使用较低精度的数字，并将权重更新等关键组件保持在较高精度，混合精度训练可以显著提高现代GPU的性能，而不会大幅降低模型准确率。

混合精度的工作原理

混合精度背后的核心思想是利用较低精度数据类型的速度和内存效率。现代硬件，尤其是带有Tensor Cores的NVIDIA GPU，可以比32位数字更快地对16位数字执行运算。该过程通常涉及三个关键步骤：

降低精度：模型的大部分运算，特别是计算密集型的矩阵乘法和卷积，都是使用半精度（FP16）算法执行的。这减少了内存占用并加快了计算速度。
维护权重的主副本： 为了保持模型的准确性和稳定性，模型的权重主副本会以标准的 32 位浮点 (FP32) 格式保存。此主副本用于在训练过程中累积梯度和更新权重。
损失缩放： 为了防止数值下溢——当小梯度值在转换为 FP16 时变为零——使用了一种称为损失缩放的技术。它包括在反向传播之前将损失乘以一个缩放因子，以使梯度值保持在 FP16 的可表示范围内。在更新权重之前，梯度会按比例缩小。

像 PyTorch 和 TensorFlow 这样的深度学习框架内置了对自动混合精度的支持，使得实现起来很容易。

应用和示例

混合精度被广泛应用于大规模机器学习（ML）模型的训练中，在这些场景下，效率至关重要。

训练大型语言模型 (LLM)： 像 GPT-3 和 BERT 这样的模型具有数十亿个参数。仅使用 FP32 训练它们将需要过多的 GPU 内存和时间。混合精度通过显着减少内存需求和加速计算，使训练此类基础模型成为可能。这使研究人员可以更快地迭代并构建更强大的语言模型。
加速计算机视觉模型： 在计算机视觉 (CV)中，混合精度加速了复杂模型的训练，例如卷积神经网络 (CNN)和Vision Transformers (ViT)。对于诸如目标检测和图像分割之类的任务，Ultralytics YOLO 模型，包括最新的 Ultralytics YOLO11，利用混合精度来实现更快的收敛。这对于超参数调整和在 Ultralytics HUB 等平台内的快速开发特别有用。更快的训练还有助于在大型数据集（如 COCO）上进行更快的实验。混合精度也可以在推理期间使用，以加速模型部署，尤其是在导出为 TensorRT 等格式时，该格式针对较低精度进行了大量优化。

混合精度

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

混合精度的工作原理

应用和示例

相关概念

阅读更多此类别的内容

使用 ExecuTorch 集成部署 Ultralytics YOLO 模型

Ultralytics 在 2025 年 PyTorch 大会上的主要亮点

利用自我监督学习对图像进行去噪处理

加入 Ultralytics 社区