敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

知识蒸馏

了解知识蒸馏如何压缩 AI 模型,以实现更快的推理、更高的准确性和边缘设备部署效率。

知识蒸馏是一种 模型优化 和压缩技术,在 机器学习 (ML) 中,训练一个紧凑的“学生”模型来重现一个更大、更复杂的“教师”模型的性能。其核心思想是将“知识”从强大但笨重的教师模型转移到更小、更高效的学生模型。这使得在资源受限的环境(例如 边缘设备 或手机)中部署高精度模型成为可能,而性能不会显著下降。该过程弥合了大规模、最先进的研究模型与实际、真实世界的 模型部署 之间的差距。

知识蒸馏的工作原理

教师模型通常是一个大型神经网络或模型的集成,首先在大型数据集上进行训练以实现高精度。在蒸馏过程中,学生模型通过尝试模仿教师的输出来学习。学生不仅从训练数据中的真实标签中学习,还接受教师对每个预测的完整概率分布的训练,通常称为“软标签”。这些软标签比“硬标签”(正确答案)提供更丰富的信息,因为它们揭示了教师模型如何“思考”和泛化。例如,教师模型可能会以 90% 的置信度预测猫的图像是“猫”,但也为“狗”(5%) 和“狐狸”(2%) 分配小概率。这种细微的差别信息有助于学生模型更有效地学习,通常比仅在硬标签上训练时获得更好的泛化效果。这项技术是创建高效模型的深度学习工具包的关键部分。

实际应用

知识蒸馏被广泛应用于各个领域,以使强大的 AI 更易于访问。

  1. 自然语言处理 (NLP): 诸如 BERT 等大型语言模型 (LLM) 功能非常强大,但对于许多应用来说过于庞大。DistilBERT 是 BERT 蒸馏版本的一个著名例子。它体积缩小了 40%,速度提高了 60%,同时保留了 BERT 超过 97% 的性能,使其适用于消费设备上的情感分析问答等任务。
  2. 边缘设备上的计算机视觉:计算机视觉中,用于图像分类目标检测的大型、高精度模型可以提炼成较小的模型。这使得复杂的视觉任务(例如,智能安全摄像头的实时人员检测)可以直接在计算能力有限的硬件(如 Raspberry Pi)上运行,从而提高速度和数据隐私。诸如 YOLO11 之类的 Ultralytics YOLO 模型可以成为此类工作流程的一部分,其中来自较大模型的知识可以为较小、可部署版本的训练提供信息。

知识蒸馏与其他优化技术对比

知识蒸馏与其他模型优化技术相关但又有所不同。了解这些差异是为您的项目选择正确方法的关键,这些项目可以通过 Ultralytics HUB 等平台进行管理和部署。

  • 模型剪枝: 此技术涉及从已训练的网络中删除冗余或不太重要的连接(权重),以减小其大小。相比之下,蒸馏是从头开始训练一个全新的、更小的网络来模仿教师网络。
  • 模型量化: 量化降低模型权重的数值精度(例如,从 32 位浮点数到 8 位整数)。这会缩小模型,并可以加快兼容硬件上的计算速度。它会改变现有模型的表示形式,而蒸馏会创建一个新模型。量化通常与蒸馏或剪枝结合使用,并且模型可以导出为 ONNX 等格式,或使用 TensorRT 等引擎进行优化。
  • 迁移学习: 涉及重用预训练模型的部分(通常是其特征提取骨干网络),然后在较小的新数据集上对其进行微调。目标是使现有模型适应新任务。另一方面,知识蒸馏旨在将教师模型的预测行为转移到学生模型,学生模型可以具有完全不同的架构。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板