了解 LoRA 如何对YOLO 等大型人工智能模型进行高效微调,从而降低成本,并以最少的资源实现边缘部署。
LoRA(Low-Rank Adaptation)是一种高效的技术,用于调整大型预训练机器学习(ML)模型,如用于自然语言处理(NLP)或计算机视觉(CV)的模型,以适应特定任务或数据集,而无需重新训练整个模型。它大大降低了与微调大规模模型相关的计算成本和内存要求,使高级人工智能更易实现。LoRA 属于参数高效微调(PEFT)方法的范畴,该方法侧重于以最小的参数变化来调整模型。
传统的微调包括使用新数据更新预训练模型的所有参数(或模型权重)。对于拥有数十亿参数的模型,如许多现代LLM或大型视觉模型,这一过程需要大量计算资源,特别是 GPU内存和时间。LoRA 的运行原理得到了研究的支持,即调整模型所需的变化通常位于较低维度的空间,这意味着不需要改变每个权重。
LoRA 并不修改所有原始权重,而是将其冻结,并将较小的、可训练的 "低秩 "矩阵注入模型架构的特定层,通常是在转换器块中(许多大型模型的常见组件,在 "注意力就是你所需要的一切 "论文中有进一步解释)。在微调过程中,只有这些新添加的矩阵(通常称为适配器)会被更新。这就大大减少了可训练参数的数量,通常是几个数量级(例如,数百万而不是数十亿),同时在许多情况下仍能达到与完全微调相媲美的性能。最初的LoRA 研究论文提供了有关该方法及其有效性的更多技术细节。这种方法大大提高了微调过程的速度,降低了内存消耗。
LoRA 的主要优点是效率高,能带来几大好处:
LoRA 的高效性使其在各个领域都具有重要价值:
将 LoRA 与其他模型适应技术区分开来很有帮助:
总之,LoRA 提供了一种功能强大、资源效率高的方法,可为 NLP 和计算机视觉领域的各种特定任务定制大型预训练基础模型,从而使高级人工智能更加实用和易用。