LoRA가 YOLO와 같은 대규모 AI 모델을 효율적으로 미세 조정하여 비용을 절감하고 최소한의 리소스로 엣지 배포를 가능하게 하는 방법을 알아보세요.
LoRA(Low-Rank Adaptation)는 전체 모델을 재학습할 필요 없이 특정 작업에 맞게 대규모의 사전 훈련된 머신 러닝(ML) 모델을 조정하는 데 사용되는 매우 효율적인 기술입니다. 원래 Microsoft 연구원의 논문에 자세히 설명된 LoRA는 PEFT(Parameter-Efficient Fine-Tuning)의 초석이 되었습니다. LLM(Large Language Models) 및 기타 기반 모델과 같은 대규모 모델을 사용자 정의하는 데 드는 계산 비용과 스토리지 요구 사항을 획기적으로 줄여줍니다.
사전 학습된 모델에서 수십억 개의 모델 가중치를 업데이트하는 대신 LoRA는 모든 가중치를 고정합니다. 그런 다음 모델의 특정 레이어, 종종 Transformer 아키텍처의 어텐션 메커니즘 내에 작은 학습 가능한 행렬 쌍(로우-랭크 어댑터라고 함)을 삽입합니다. 학습 과정 동안에는 이러한 새로운 훨씬 더 작은 행렬의 파라미터만 업데이트됩니다. 핵심 아이디어는 모델을 새로운 작업에 적용하는 데 필요한 변경 사항을 원래 모델에 포함된 것보다 훨씬 적은 파라미터로 나타낼 수 있다는 것입니다. 이는 차원 축소와 유사한 원리를 활용하여 적응에 필요한 필수 정보를 간결한 형태로 캡처합니다. 학습이 완료되면 작은 어댑터를 원래 가중치와 병합하거나 모듈식 작업 전환을 위해 분리된 상태로 유지할 수 있습니다.
LoRA의 효율성은 특히 여러 사용자 정의 모델이 필요한 광범위한 애플리케이션에 이상적입니다.
LoRA를 다른 모델 적용 기술과 구별하는 것이 유용합니다.
요약하자면, LoRA는 자연어 처리(NLP) 및 컴퓨터 비전 모두에서 광범위한 특정 작업에 대해 대규모 사전 훈련된 기반 모델을 사용자 정의하는 강력하고 리소스 효율적인 방법을 제공하여 고급 AI를 보다 실용적이고 접근 가능하게 만듭니다. 이 접근 방식을 사용하면 많은 특수 모델을 쉽게 관리하고 배포할 수 있으며, 모델 수명 주기를 관리하기 위한 Ultralytics HUB와 같은 플랫폼에서 프로세스를 간소화합니다.