YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

모델 가지치기

모델 가지치기를 통해 머신 러닝 모델을 최적화하세요. 리소스가 제한된 배포를 위해 더 빠른 추론, 메모리 사용량 감소 및 에너지 효율성을 달성하세요.

모델 가지치기는 모델 최적화 기술로, 신경망을 더 작고 계산적으로 효율적으로 만듭니다. 핵심 아이디어는 훈련된 모델에서 중복되거나 중요하지 않은 매개변수(가중치, 뉴런 또는 채널)를 식별하고 제거하는 것입니다. 이 프로세스는 모델의 크기를 줄이고 추론 속도를 크게 높여 메모리 및 처리 능력이 제한된 에지 장치에 배포하는 데 이상적입니다. 이 개념은 많은 대규모 모델이 과도하게 매개변수화되어 최종 예측에 거의 기여하지 않는 구성 요소를 포함하고 있다는 관찰을 기반으로 합니다. Optimal Brain Damage와 같은 획기적인 논문에서는 모든 매개변수가 동일하게 생성되는 것은 아니라는 점을 초기에 확립했습니다.

모델 가지치기 유형

모델 가지치기 기술은 일반적으로 네트워크에서 제거되는 요소의 세분성에 따라 분류됩니다.

  • 가중치 가지치기(비정형): 이는 가장 세분화된 방법으로, 특정 임계값 아래의 값을 가진 개별 모델 가중치가 0으로 설정됩니다. 이렇게 하면 압축률이 높은 '희소' 모델이 생성됩니다. 그러나 추론 중에 상당한 속도 향상을 달성하려면 NVIDIA의 희소 모델용 도구와 같은 특수 하드웨어 또는 소프트웨어 라이브러리가 필요한 경우가 많습니다.
  • 뉴런 가지치기: 이 접근 방식에서는 중요하지 않다고 판단되는 경우 전체 뉴런과 모든 들어오고 나가는 연결이 제거됩니다. 이는 개별 가중치를 제거하는 것보다 더 구조화된 형태의 가지치기입니다.
  • 필터/채널 가지치기(구조화됨): 특히 CNN(Convolutional Neural Network)과 관련된 이 방법은 전체 필터 또는 채널을 제거합니다. 네트워크 레이어의 조밀하고 규칙적인 구조를 유지하므로 이 접근 방식은 특수 라이브러리 없이도 표준 하드웨어에서 직접 성능 향상을 가져오는 경우가 많습니다. Neural Magic의 DeepSparse와 같은 도구는 CPU에서 이러한 희소 모델을 가속화하도록 설계되었습니다.

가지치기 후 모델은 일반적으로 파라미터 제거 중에 손실된 정확도를 복구하기 위해 더 작은 네트워크를 몇 번의 에포크 동안 재학습하는 미세 조정을 거칩니다. 유명한 로터리 티켓 가설는 큰 네트워크 내에 처음부터 훈련했을 때 유사한 성능을 달성할 수 있는 더 작은 서브 네트워크가 존재한다고 가정합니다. PyTorch와 같은 프레임워크는 공식 PyTorch 가지치기 튜토리얼에서 볼 수 있듯이 구현을 위한 내장 도구를 제공합니다.

실제 애플리케이션

모델 가지치기는 다양한 시나리오에서 효율적인 AI 모델을 배포하는 데 매우 중요합니다.

  1. 에지 장치에서 객체 탐지 최적화: Ultralytics YOLO와 같은 모델은 Raspberry Pi 또는 NVIDIA Jetson과 같은 리소스가 제한된 하드웨어에서 객체 탐지 작업을 효율적으로 실행할 수 있도록 가지치기할 수 있습니다. 이를 통해 교통 관리, 스마트 감시 및 로봇 공학에 컴퓨터 비전 통합과 같은 실시간 애플리케이션이 가능합니다.
  2. LLM(대규모 언어 모델)을 로컬로 배포: 가지치기는 Transformer 아키텍처를 기반으로 하는 대규모 모델을 축소하는 데 사용되며, 이를 통해 자연어 처리(NLP) 작업을 위해 스마트폰과 같은 장치에서 실행할 수 있습니다. 양자화와 같은 다른 기술과 결합되기도 하는 이 접근 방식을 통해 강력한 온디바이스 AI 어시스턴트 및 번역 앱이 가능해지며 데이터 개인 정보 보호를 강화하고 대기 시간을 줄일 수 있습니다. Hugging Face에서 LLM 가지치기와 같은 조직의 연구 및 도구를 살펴봅니다.

가지치기(Pruning) vs. 기타 최적화 기술

모델 가지치기는 여러 상호 보완적인 모델 최적화 기술 중 하나입니다.

  • 모델 양자화: 이 기술은 모델 가중치 및 활성화의 수치 정밀도를 줄입니다(예: 32비트 부동 소수점 숫자에서 8비트 정수로). 파라미터를 제거하는 가지치기와 달리 양자화는 기존 파라미터의 크기를 더 작게 만듭니다. 특히 TensorRT와 같은 특수 지원이 있는 하드웨어를 대상으로 할 때 최대 최적화를 위해 가지치기 후에 적용되는 경우가 많습니다.
  • Knowledge Distillation: 이 방법은 더 큰 사전 훈련된 "교사" 모델의 출력을 모방하도록 더 작은 "학생" 모델을 훈련하는 것을 포함합니다. 목표는 교사가 학습한 지식을 보다 컴팩트한 아키텍처로 이전하는 것입니다. 이는 새로운 모델을 훈련하는 대신 이미 훈련된 모델을 슬림화하는 가지치기와는 다릅니다.

궁극적으로 이러한 기술을 조합하여 매우 효율적인 모델을 만들 수 있습니다. 최적화가 완료되면 Ultralytics의 내보내기 옵션을 사용하여 모델을 ONNX와 같은 표준 형식으로 내보내 다양한 추론 엔진에서 광범위하게 배포할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 훈련에서 최적화된 배포에 이르기까지 컴퓨터 비전 모델의 전체 라이프사이클을 관리할 수 있는 도구를 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.