了解 LoRA 如何高效地微调 YOLO 等大型人工智能模型,降低成本,并以最少的资源实现边缘部署。
LoRA,即低级适应(Low-Rank Adaptation),是一种高效技术,用于针对特定任务调整大型预训练机器学习(ML)模型,而无需重新训练整个模型。LoRA 最初是由微软研究人员在一篇论文中详细阐述的,现已成为参数高效微调(PEFT)的基石。它大大降低了与定制大型模型(如大型语言模型(LLM)和其他基础模型)相关的计算成本和存储要求。
LoRA 不更新预训练模型中的数十亿个模型权重,而是冻结所有权重。然后,它将一对小的、可训练的矩阵(即低秩适配器)注入到模型的特定层中,通常是在Transformer架构的注意力机制中。在训练过程中,只更新这些新的、小得多的矩阵参数。其核心理念是,模型适应新任务所需的变化可以用比原始模型少得多的参数来表示。这就利用了类似于降维的原理,以紧凑的形式捕捉到适应的基本信息。训练完成后,小型适配器可以与原始权重合并,也可以单独保留,用于模块化任务切换。
LoRA 的效率使其成为各种应用的理想选择,尤其是在需要多个定制模型的情况下。
将 LoRA 与其他模型适应技术区分开来很有帮助:
总之,LoRA 提供了一种功能强大、资源效率高的方法,可为自然语言处理(NLP)和计算机视觉领域的各种特定任务定制大型预训练基础模型,使高级人工智能更加实用、更容易获得。这种方法可以轻松管理和部署许多专业模型,Ultralytics HUB等平台简化了管理模型生命周期的流程。