LoRAがYOLOのような大規模AIモデルを効率的に微調整し、コストを削減し、最小限のリソースでエッジ展開を可能にする方法をご覧ください。
LoRA(低ランク適応)は、モデル全体を再学習する必要なく、事前に訓練された大規模な機械学習(ML)モデルを特定のタスクに適応させるために使用される、非常に効率的な手法である。もともとはマイクロソフト社の研究者が論文で詳述したものだが、LoRAはPEFT(Parameter-Efficient Fine-Tuning)の基礎となっている。LLM(大規模言語モデル)やその他の基盤モデルのような大規模モデルのカスタマイズに関連する計算コストとストレージ要件を劇的に削減します。
LoRAは、事前に訓練されたモデルの何十億もの重みを更新する代わりに、それらすべてを凍結する。そして、Transformerアーキテクチャのアテンション・メカニズム内にあるモデルの特定の層に、低ランク・アダプターと呼ばれる訓練可能な小さな行列のペアを注入する。学習プロセスでは、これらの新しい、より小さな行列のパラメータのみが更新される。核となる考え方は、モデルを新しいタスクに適応させるために必要な変更は、元のモデルが含むパラメータよりもはるかに少ないパラメータで表現できるということである。これは次元削減と同様の原理を活用し、適応に必要な情報をコンパクトな形で取り込む。トレーニングが完了すると、小さなアダプターは元の重みと統合することも、モジュール式のタスク切り替えのために分離しておくこともできる。
LoRAの効率性は、特に複数のカスタムモデルが必要な場合など、幅広い用途に理想的である。
LoRAを他のモデル適応技術と区別することは有益だ:
要約すると、LoRAは、自然言語処理(NLP)とコンピュータビジョンの両方における幅広い特定のタスクのために、事前に訓練された大規模な基礎モデルをカスタマイズする強力でリソース効率の高い方法を提供し、高度なAIをより実用的で身近なものにします。このアプローチにより、多くの特殊化されたモデルの容易な管理と展開が可能になり、モデルのライフサイクルを管理するUltralytics HUBのようなプラットフォームによってプロセスが合理化されます。