용어집

매개변수 효율적 미세 조정(PEFT)

최소한의 리소스로 대규모 AI 모델을 조정하기 위한 매개변수 효율적 미세 조정(PEFT)에 대해 알아보세요. 비용을 절감하고, 과적합을 방지하고, 배포를 최적화하세요!

파라미터 효율적인 미세 조정(PEFT)은 머신 러닝에서 전체 모델을 재학습할 필요 없이 사전 학습된 대규모 모델을 새롭고 특정한 작업에 적용하는 데 사용되는 일련의 기술입니다. 자연어 처리(NLP)컴퓨터 비전(CV) 과 같은 분야의 기본 모델이 수십억 개의 매개변수로 증가함에 따라 전체 미세 조정은 계산 비용이 많이 들고 새로운 작업마다 상당한 데이터 저장 공간이 필요하게 됩니다. PEFT는 사전 학습된 모델의 가중치 대부분을 동결하고 소수의 추가 또는 기존 매개변수만 학습함으로써 이 문제를 해결합니다. 이 접근 방식은 계산 및 저장 비용을 대폭 줄이고, 치명적인 망각(모델이 원래 기능을 잊어버리는 경우)의 위험을 낮추며, 하나의 대형 모델을 다양한 애플리케이션에 맞게 사용자 지정할 수 있게 해줍니다.

PEFT는 어떻게 작동하나요?

PEFT의 핵심 원칙은 사전 학습된 모델을 대상으로 최소한의 변경만 하는 것입니다. 모든 파라미터를 업데이트하는 대신 PEFT 방법은 훈련 가능한 파라미터의 작은 집합을 도입하거나 기존 파라미터의 작은 하위 집합을 선택하여 훈련 중에 업데이트합니다. 이는 효율성을 최적화하는 전이 학습의 한 형태입니다. 각기 다른 전략을 사용하는 몇 가지 인기 있는 PEFT 방법이 있습니다:

  • LoRA(낮은 순위 적응): 이 기술은 작고 훈련 가능한 낮은 순위의 행렬을 사전 훈련된 모델의 레이어, 주로 주의 메커니즘 내에 주입합니다. 이러한 "어댑터" 행렬은 원래 가중치 행렬보다 훨씬 작기 때문에 빠르고 효율적으로 학습할 수 있습니다. 보다 자세한 기술적인 내용은 LoRA 연구 논문에서 확인할 수 있습니다.
  • 프롬프트 튜닝: 이 방법은 모델의 아키텍처를 수정하는 대신 모델을 완전히 고정하고 일련의 '소프트 프롬프트' 또는 학습 가능한 임베딩 벡터를 학습합니다. 이러한 벡터는 입력 시퀀스에 추가되어 기초 문서에 자세히 설명된 대로 특정 작업에 대한 모델의 출력을 안내합니다.
  • 어댑터 튜닝: 이 방법에는 사전 학습된 모델의 레이어 사이에 '어댑터'라고 하는 완전히 연결된 작은 신경망 모듈을 삽입하는 것이 포함됩니다. 이 새로운 어댑터의 매개변수만 학습됩니다.

이러한 방법 및 기타 방법은 구현을 간소화하는 Hugging Face PEFT 라이브러리와 같은 프레임워크를 통해 광범위하게 액세스할 수 있습니다.

PEFT와 관련 개념

PEFT를 다른 모델 적응 전략과 차별화하는 것이 중요합니다:

  • 전체 미세 조정: 전체 미세 조정: PEFT와 달리 전체 미세 조정은 사전 학습된 모델의 모든 가중치를 업데이트합니다. 이는 리소스 집약적이며, 미세 조정된 각 모델 버전에 대해 강력한 GPU와 대용량 스토리지가 필요합니다.
  • 프롬프트 엔지니어링: 이 기법은 모델의 동작을 안내하는 효과적인 텍스트 기반 프롬프트를 수동으로 디자인하는 것을 포함합니다. 학습이나 매개변수 업데이트는 포함되지 않으며, 고정된 모델에서 원하는 출력을 얻기 위해 입력을 조작하는 것뿐입니다.
  • 지식 증류: 여기에는 미리 훈련된 더 큰 '교사' 모델의 행동을 모방하도록 더 작은 '학생' 모델을 훈련하는 것이 포함됩니다. 더 작은 모델을 생성하지만 프로세스 자체는 여전히 계산 집약적일 수 있습니다.

실제 애플리케이션

PEFT를 사용하면 다양한 도메인에 걸쳐 대규모 모델을 실제로 적용할 수 있습니다:

  • 자연어 처리(NLP): 기업은 PEFT를 사용하여 GPT-4 또는 BERT와 같은 범용 모델을 조정하여 내부 지식 기반을 위한 전문 챗봇을 만들 수 있습니다. 비용이 많이 드는 전체 재교육 대신 LoRA와 같은 방법을 사용하여 회사별 용어와 절차를 모델에 학습시켜 고객 서비스나 내부 지원을 위한 보다 정확한 응답을 얻을 수 있습니다. 스탠포드 NLP 그룹과 같은 연구 그룹에서 이러한 유형의 애플리케이션을 연구하고 있습니다.
  • 컴퓨터 비전(CV): PEFT는 특정 시각 인식 작업을 위해 비전 트랜스포머(ViT) 또는 Ultralytics YOLO 모델과 같은 대규모 비전 모델을 사용자 정의할 수 있습니다. 예를 들어, 제조 품질 관리에서 고유한 결함을 정밀하게 감지하거나 의료 이미지 분석을 위한 특수 이미지 분할을 수행하거나 야생동물 보호 카메라 트랩에서 특정 동물 종을 식별하기 위해 광범위한 COCO 데이터 세트에 대해 사전 학습된 모델을 PEFT를 사용하여 조정할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 이렇게 조정된 모델과 실험을 관리하는 데 도움을 줄 수 있습니다.

기본적으로 매개변수의 효율적인 미세 조정은 최첨단 AI 모델을 더욱 다양하고 비용 효율적으로 조정할 수 있도록 하여 다양한 특정 애플리케이션을 위한 강력한 AI 기능에 대한 액세스를 대중화합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨