용어집

매개변수 효율적 미세 조정(PEFT)

최소한의 리소스로 대규모 AI 모델을 조정하기 위한 매개변수 효율적 미세 조정(PEFT)에 대해 알아보세요. 비용을 절감하고, 과적합을 방지하고, 배포를 최적화하세요!

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

파라미터 효율적인 미세 조정(PEFT)은 머신 러닝(ML) 에서 모델의 모든 파라미터를 업데이트할 필요 없이 미리 학습된 대규모 모델(예: 기초 모델)을 특정 다운스트림 작업에 맞게 조정하는 데 사용되는 기술 모음을 설명합니다. 대신 PEFT 방법은 매개변수의 일부만 수정하거나 소수의 새 매개변수를 추가하는 데 중점을 둡니다. 이 접근 방식은 대규모 언어 모델(LLM) 이나 컴퓨터 비전(CV)에 사용되는 대규모 비전 모델과 같은 대규모 모델을 미세 조정하는 것과 관련된 계산 및 스토리지 비용을 대폭 줄여주므로 사용자 지정에 더 쉽게 접근하고 효율적으로 사용할 수 있습니다.

관련성 및 이점

수십억 개의 파라미터를 포함하는 초대형 사전 학습 모델이 등장하면서 기존의 미세 조정 방법은 리소스 집약적인 방식이 되었습니다. 이러한 모델을 완전히 미세 조정하려면 상당한 연산 능력(종종 여러 대의 하이엔드 GPU), 많은 양의 메모리, 각 조정된 모델에 대한 상당한 저장 공간이 필요합니다. PEFT는 몇 가지 주요 이점을 제공함으로써 이러한 문제를 해결합니다:

  • 컴퓨팅 비용 절감: 극히 일부의 매개변수만 학습하면 컴퓨팅 성능과 시간이 훨씬 적게 필요하므로, 잠재적으로 Ultralytics HUB 클라우드 학습과 같은 플랫폼을 사용하여 더 빠른 반복과 실험을 수행할 수 있습니다.
  • 메모리 요구 사항 감소: 활성 매개변수가 적을수록 학습 및 추론 중에 필요한 메모리가 줄어들어 소비자급 하드웨어나 엣지 디바이스에서 대규모 모델을 미세 조정할 수 있습니다.
  • 더 작은 저장 공간: 각 작업에 대해 미세 조정된 모델의 전체 복사본을 저장하는 대신 PEFT는 종종 수정되거나 추가된 작은 매개변수 세트만 저장하면 되므로 스토리지가 크게 절약됩니다.
  • 과적합 완화: 훈련 가능한 파라미터의 수를 제한함으로써 PEFT는 특히 소규모 데이터 세트에서 미세 조정할 때 과적합의 위험을 줄일 수 있습니다.
  • 치명적인 건망증 방지: PEFT 방법은 대부분의 기본 모델 파라미터를 고정하여 사전 학습 중에 학습한 일반적인 지식을 유지함으로써 모델이 새로운 작업을 학습할 때 이전 기능을 잃어버리는 치명적 망각을 극복합니다.
  • 효율적인 모델 배포: 작업별 매개변수의 크기가 작을수록 모델 배포가 더 간단해지며, 특히 엣지 AI와 같이 리소스가 제한된 환경에서는 더욱 그렇습니다.

주요 개념 및 기술

PEFT는 기본 모델의 지식을 새로운 작업에 적용하는 전이 학습의 개념을 기반으로 합니다. 표준 미세 조정은 많은(또는 모든) 레이어를 조정하는 반면, PEFT는 특수한 방법을 사용합니다. 몇 가지 인기 있는 PEFT 기법은 다음과 같습니다:

  • 어댑터: 사전 학습된 모델의 레이어 사이에 삽입된 작은 신경망 모듈입니다. 미세 조정 중에는 이러한 어댑터 모듈의 매개변수만 학습되고 원래 모델 가중치는 고정된 상태로 유지됩니다.
  • LoRA(낮은 순위 적응): 이 기법은 학습 가능한 낮은 순위 행렬을 대규모 모델의 레이어(주로 트랜스포머 레이어)에 주입하는 기법입니다. 이 기법은 모델을 적응시키는 데 필요한 변화가 '내재적 순위'가 낮고 효율적으로 표현될 수 있다는 가설을 세웁니다. 자세한 내용은 LoRA 연구 논문 원본을 읽어보세요.
  • 접두사 튜닝: 입력에 일련의 연속적인 작업별 벡터(접두사)를 추가하여 기본 LLM 매개변수는 고정된 상태로 유지합니다. 접두사 매개변수만 학습됩니다.
  • 프롬프트 튜닝: 접두사 튜닝과 유사하지만, 역전파를 통해 직접 최적화되는 입력 시퀀스에 학습 가능한 '소프트 프롬프트'(임베딩)를 추가하여 이를 단순화합니다.

Hugging Face PEFT 라이브러리와 같은 라이브러리는 다양한 PEFT 방법의 구현을 제공하므로 일반적인 ML 워크플로에 쉽게 통합할 수 있습니다.

관련 개념과의 차이점

PEFT를 다른 모델 적응 및 최적화 기법과 구별하는 것이 중요합니다:

  • 미세 조정: 표준 미세 조정은 일반적으로 새로운 데이터 세트에 대해 사전 학습된 모델 매개변수의 전부 또는 상당 부분을 업데이트합니다. 이와 달리 PEFT는 매개변수의 극히 일부만 수정하거나 몇 가지 새로운 매개변수를 추가합니다.
  • 모델 가지치기: 이 기술은 훈련된 모델에서 중복되거나 중요하지 않은 매개변수(가중치 또는 연결)를 제거하여 크기와 계산 비용을 줄이는 것으로, 주로 훈련 또는 전체 미세 조정 후에 이루어집니다. PEFT는 처음에 학습되는 항목을 제한하여 효율적인 적응에 중점을 둡니다.
  • 지식 증류: 미리 훈련된 대규모 '교사' 모델의 행동을 모방하도록 소규모 '학생' 모델을 훈련하는 방식입니다. PEFT는 대형 모델 자체를 직접 조정하지만 효율적으로 조정합니다.
  • 하이퍼파라미터 튜닝: 이 프로세스는 교육 프로세스에 대한 최적의 구성 설정을 찾는 데 중점을 둡니다(예, 학습 속도, 배치 크기)를 사용하여 모델의 학습된 파라미터를 새로운 작업에 맞게 조정하는 대신에. 다음과 같은 도구는 Ultralytics Tuner 클래스 이를 용이하게 합니다.

실제 애플리케이션

PEFT를 사용하면 다양한 도메인에 걸쳐 대규모 모델을 실제로 적용할 수 있습니다:

본질적으로 파라미터 효율적인 미세 조정은 Ultralytics YOLO 모델과 같은 최첨단 AI 모델을 더욱 다양하고 비용 효율적으로 다양한 특정 애플리케이션에 맞게 조정할 수 있게 하여 강력한 AI 기능에 대한 액세스를 대중화합니다.

모두 보기