词汇表

知识蒸馏

了解知识蒸馏如何压缩 AI 模型，以实现更快的推理、更高的准确性和边缘设备部署效率。

知识蒸馏是一种模型优化和压缩技术，在机器学习 (ML) 中，训练一个紧凑的“学生”模型来重现一个更大、更复杂的“教师”模型的性能。其核心思想是将“知识”从强大但笨重的教师模型转移到更小、更高效的学生模型。这使得在资源受限的环境（例如边缘设备或手机）中部署高精度模型成为可能，而性能不会显著下降。该过程弥合了大规模、最先进的研究模型与实际、真实世界的模型部署之间的差距。

知识蒸馏的工作原理

教师模型通常是一个大型神经网络或模型的集成，首先在大型数据集上进行训练以实现高精度。在蒸馏过程中，学生模型通过尝试模仿教师的输出来学习。学生不仅从训练数据中的真实标签中学习，还接受教师对每个预测的完整概率分布的训练，通常称为“软标签”。这些软标签比“硬标签”（正确答案）提供更丰富的信息，因为它们揭示了教师模型如何“思考”和泛化。例如，教师模型可能会以 90% 的置信度预测猫的图像是“猫”，但也为“狗”(5%) 和“狐狸”(2%) 分配小概率。这种细微的差别信息有助于学生模型更有效地学习，通常比仅在硬标签上训练时获得更好的泛化效果。这项技术是创建高效模型的深度学习工具包的关键部分。

实际应用

知识蒸馏被广泛应用于各个领域，以使强大的 AI 更易于访问。

自然语言处理 (NLP)： 诸如 BERT 等大型语言模型 (LLM) 功能非常强大，但对于许多应用来说过于庞大。DistilBERT 是 BERT 蒸馏版本的一个著名例子。它体积缩小了 40%，速度提高了 60%，同时保留了 BERT 超过 97% 的性能，使其适用于消费设备上的情感分析和问答等任务。
边缘设备上的计算机视觉： 在计算机视觉中，用于图像分类或目标检测的大型、高精度模型可以提炼成较小的模型。这使得复杂的视觉任务（例如，智能安全摄像头的实时人员检测）可以直接在计算能力有限的硬件（如 Raspberry Pi）上运行，从而提高速度和数据隐私。诸如 YOLO11 之类的 Ultralytics YOLO 模型可以成为此类工作流程的一部分，其中来自较大模型的知识可以为较小、可部署版本的训练提供信息。

知识蒸馏与其他优化技术对比

知识蒸馏与其他模型优化技术相关但又有所不同。了解这些差异是为您的项目选择正确方法的关键，这些项目可以通过 Ultralytics HUB 等平台进行管理和部署。

模型剪枝: 此技术涉及从已训练的网络中删除冗余或不太重要的连接（权重），以减小其大小。相比之下，蒸馏是从头开始训练一个全新的、更小的网络来模仿教师网络。
模型量化: 量化降低模型权重的数值精度（例如，从 32 位浮点数到 8 位整数）。这会缩小模型，并可以加快兼容硬件上的计算速度。它会改变现有模型的表示形式，而蒸馏会创建一个新模型。量化通常与蒸馏或剪枝结合使用，并且模型可以导出为 ONNX 等格式，或使用 TensorRT 等引擎进行优化。
迁移学习: 涉及重用预训练模型的部分（通常是其特征提取骨干网络），然后在较小的新数据集上对其进行微调。目标是使现有模型适应新任务。另一方面，知识蒸馏旨在将教师模型的预测行为转移到学生模型，学生模型可以具有完全不同的架构。

知识蒸馏

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

知识蒸馏的工作原理

实际应用

知识蒸馏与其他优化技术对比

阅读更多此类别的内容

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

加入 Ultralytics 社区