用語集

LoRA(低ランク適応)

LoRAがYOLOのような大規模AIモデルを効率的に微調整し、コストを削減し、最小限のリソースでエッジ展開を可能にする方法をご覧ください。

LoRA(低ランク適応)は、モデル全体を再学習する必要なく、事前に訓練された大規模な機械学習(ML)モデルを特定のタスクに適応させるために使用される、非常に効率的な手法である。もともとはマイクロソフト社の研究者が論文で詳述したものだが、LoRAはPEFT(Parameter-Efficient Fine-Tuning)の基礎となっている。LLM(大規模言語モデル)やその他の基盤モデルのような大規模モデルのカスタマイズに関連する計算コストとストレージ要件を劇的に削減します。

LoRAの仕組み

LoRAは、事前に訓練されたモデルの何十億もの重みを更新する代わりに、それらすべてを凍結する。そして、Transformerアーキテクチャのアテンション・メカニズム内にあるモデルの特定の層に、低ランク・アダプターと呼ばれる訓練可能な小さな行列のペアを注入する。学習プロセスでは、これらの新しい、より小さな行列のパラメータのみが更新される。核となる考え方は、モデルを新しいタスクに適応させるために必要な変更は、元のモデルが含むパラメータよりもはるかに少ないパラメータで表現できるということである。これは次元削減と同様の原理を活用し、適応に必要な情報をコンパクトな形で取り込む。トレーニングが完了すると、小さなアダプターは元の重みと統合することも、モジュール式のタスク切り替えのために分離しておくこともできる。

実世界での応用

LoRAの効率性は、特に複数のカスタムモデルが必要な場合など、幅広い用途に理想的である。

  • チャットボットのカスタマイズ:企業は、強力で汎用的なLLMを使用し、LoRAを使用して社内の知識ベースでそれを訓練することができます。これにより、完全な微調整に莫大なコストをかけることなく、企業固有の用語を理解する特化したカスタマーサービス・チャットボットが作成されます。
  • AIアートとスタイル転送:アーティストやデザイナーはLoRAを使って、Stable Diffusionのような生成AIモデルを特定の芸術スタイルに適応させる。自分の画像の小さなセットでアダプターをトレーニングすることで、独自の美学を模倣した新しいアートを生成することができ、Hugging Faceのようなプラットフォームで人気のある手法です。

LoRAと関連概念

LoRAを他のモデル適応技術と区別することは有益だ:

  • 完全な微調整:この方法は、新しいデータセット上で、事前に訓練されたモデルのすべての重みを更新する。多くの場合効果的であるが、適応されたモデルごとに多大な計算リソース(GPU)とストレージを必要とする。これに対してLoRAは、元の重みを凍結し、注入された小さなアダプター行列のみを訓練します。詳細については、ファインチューニング用語集および NVIDIAのファインチューニングの概要をご覧ください。
  • プロンプトチューニング:この手法はモデルの重みを完全に凍結したまま、代わりに連続的な「ソフトプロンプト」(入力埋め込みに追加されるベクトル)を学習し、特定のタスクに対するモデルの振る舞いを制御する。LoRAとは異なり、モデルの重みを変更することなく、純粋に入力表現の適応に焦点を当てる。プロンプトチューニングと プロンプトエンジニアリングについてもっと読む。
  • その他のPEFT手法LoRAは、PEFT(Parameter-Efficient Fine-Tuning)という広い分野の中の1つの手法に過ぎません。他の手法には、アダプターチューニング(似ているがアダプター構造が若干異なる)、プレフィックスチューニング、IA³があり、それぞれパラメーター効率と性能のトレードオフが異なる。これらの方法は、Hugging Face PEFTライブラリのようなフレームワークで一般的に利用できます。

要約すると、LoRAは、自然言語処理(NLP)とコンピュータビジョンの両方における幅広い特定のタスクのために、事前に訓練された大規模な基礎モデルをカスタマイズする強力でリソース効率の高い方法を提供し、高度なAIをより実用的で身近なものにします。このアプローチにより、多くの特殊化されたモデルの容易な管理と展開が可能になり、モデルのライフサイクルを管理するUltralytics HUBのようなプラットフォームによってプロセスが合理化されます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク