LoRA (Low-Rank Adaptation)
了解 LoRA 如何高效地微调 YOLO 等大型 AI 模型,从而降低成本并以最少的资源实现边缘部署。
LoRA(Low-Rank Adaptation,低秩适应)是一种高效的技术,用于调整大型预训练的 机器学习 (ML) 模型以适应特定任务,而无需重新训练整个模型。LoRA 最初由 微软研究人员 在一篇论文中详细介绍,现已成为 参数高效微调 (PEFT) 的基石。它大大降低了与自定义大型模型(如 大型语言模型 (LLM) 和其他 基础模型)相关的计算成本和存储要求。
LoRA 的工作原理
LoRA 不是更新预训练模型中的数十亿个 模型权重,而是冻结所有这些权重。然后,它将一对小的、可训练的矩阵(称为低秩适配器)注入到模型的特定层中,通常是在 Transformer 架构的 注意力机制 中。在 训练过程 中,仅更新这些新的、小得多的矩阵的参数。核心思想是,将模型适应新任务所需的更改可以用比原始模型包含的参数少得多的参数来表示。这利用了类似于 降维 的原理,以紧凑的形式捕获适应的基本信息。训练完成后,可以将小型适配器与原始权重合并,也可以保持分离以进行模块化任务切换。
实际应用
LoRA 的效率使其非常适合广泛的应用,尤其是在需要多个自定义模型的情况下。
- 定制聊天机器人: 企业可以采用功能强大的通用 LLM,并使用 LoRA 在其内部知识库上对其进行训练。 这样可以创建一个专业的客户服务聊天机器人,该机器人可以理解公司特定的术语,而无需付出完整的微调所带来的巨大成本。
- AI 艺术和风格迁移: 艺术家和设计师使用 LoRA 来调整 生成式 AI 模型(如 Stable Diffusion)以适应特定的艺术风格。通过在少量自己的图像上训练适配器,他们可以生成模仿其独特美学的新艺术作品,这在 Hugging Face 等平台上是一种流行的做法。
LoRA 与相关概念对比
区分LoRA和其他模型适配技术会很有帮助:
- 完全微调: 此方法更新新数据集上预训练模型的所有权重。虽然通常有效,但它需要大量的计算资源 (GPU) 和存储空间才能存储每个调整后的模型。相比之下,LoRA 会冻结原始权重,并且仅训练小的、注入的适配器矩阵。在我们的微调词汇表条目和 NVIDIA 的微调概述中查找更多详细信息。
- 提示调优: 这种技术完全冻结模型权重,而是学习连续的“软提示”(添加到输入嵌入的向量),以引导模型针对特定任务的行为。与 LoRA 不同,它不修改任何模型权重,而是纯粹专注于调整输入表示。阅读更多关于提示调优和提示工程的信息。
- 其他 PEFT 方法: LoRA 只是参数高效微调 (PEFT)这一更广泛领域中的一种技术。其他方法包括 Adapter Tuning(类似但具有略微不同的适配器结构)、Prefix Tuning 和 IA³,每种方法都在参数效率和性能方面提供不同的权衡。这些方法通常在 Hugging Face PEFT 库等框架中可用。
总而言之,LoRA 提供了一种强大且资源高效的方式,可以为大型预训练基础模型定制各种特定任务,无论是在自然语言处理 (NLP)还是计算机视觉中,从而使先进的 AI 更加实用和易于访问。这种方法可以轻松管理和部署许多专用模型,而 Ultralytics HUB 等平台简化了模型生命周期的管理。