YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

모델 최적화란 무엇일까요? 간단한 가이드

Abirami Vina

5분 분량

2024년 11월 15일

하이퍼파라미터 튜닝, 모델 가지치기 및 모델 양자화와 같은 모델 최적화 기술이 컴퓨터 비전 모델의 효율적인 실행에 어떻게 도움이 되는지 알아보세요.

모델 최적화는 머신 러닝 모델의 효율성과 성능을 향상시키는 것을 목표로 하는 프로세스입니다. 모델의 구조와 기능을 개선함으로써 최적화는 모델이 최소한의 컴퓨팅 리소스로 더 나은 결과를 제공하고 학습평가 시간을 단축할 수 있도록 합니다.

이 프로세스는 컴퓨터 비전과 같이 모델복잡한 이미지를 분석하는 데 상당한 리소스가 필요한 분야에서 특히 중요합니다. 모바일 장치 또는 엣지 시스템과 같이 리소스가 제한된 환경에서 최적화된 모델은 제한된 리소스로도 정확도를 유지하면서 잘 작동할 수 있습니다.

하이퍼파라미터 튜닝, 모델 가지치기, 모델 양자화 및 혼합 정밀도를 포함하여 모델 최적화를 달성하는 데 일반적으로 사용되는 몇 가지 기술이 있습니다. 이 기사에서는 이러한 기술과 컴퓨터 비전 응용 프로그램에 제공하는 이점을 살펴봅니다. 시작해 보겠습니다!

모델 최적화 이해

컴퓨터 비전 모델은 일반적으로 깊은 레이어와 복잡한 구조를 가지고 있어 이미지에서 복잡한 패턴을 인식하는 데 유용하지만, 처리 능력 면에서 상당한 부담을 줄 수 있습니다. 이러한 모델이 휴대폰이나 에지 디바이스와 같이 하드웨어 성능이 제한된 장치에 배포될 때 특정 문제나 제약에 직면할 수 있습니다. 

이러한 장치의 제한된 처리 능력, 메모리 및 에너지로 인해 모델이 따라가지 못하여 성능이 눈에 띄게 저하될 수 있습니다. 모델 최적화 기술은 이러한 문제를 해결하는 데 핵심적입니다. 모델을 간소화하고 계산 요구 사항을 줄이며 제한된 리소스에서도 효과적으로 작동할 수 있도록 지원합니다. 모델 최적화는 모델 아키텍처를 단순화하거나, 계산의 정밀도를 낮추거나, 불필요한 구성 요소를 제거하여 모델을 더 가볍고 빠르게 만들어서 수행할 수 있습니다.

__wf_reserved_inherit
그림 1. 모델 최적화 이유 (이미지 출처: 작성자).

다음은 가장 일반적인 모델 최적화 기술 중 일부이며, 다음 섹션에서 더 자세히 살펴보겠습니다.

  • 하이퍼파라미터 튜닝: 학습률 및 배치 크기와 같은 하이퍼파라미터를 체계적으로 조정하여 모델 성능을 향상시키는 것을 포함합니다.
  • 모델 가지치기(Pruning): 이 기술은 신경망에서 불필요한 가중치와 연결을 제거하여 복잡성과 계산 비용을 줄입니다.
  • 모델 양자화(Quantization): 양자화는 모델의 가중치 및 활성화의 정밀도를 일반적으로 32비트에서 16비트 또는 8비트로 줄여 메모리 사용량과 계산 요구 사항을 크게 줄입니다.
  • 정밀도 조정: 혼합 정밀도 학습이라고도 하며, 모델의 여러 부분에 대해 서로 다른 정밀도 형식을 사용하고 정확도를 저하시키지 않으면서 리소스 사용량을 최적화합니다.

설명: 머신러닝 모델의 하이퍼파라미터

모델이 데이터에서 학습하는 방식을 결정하는 설정인 하이퍼파라미터를 튜닝하여 모델의 학습 및 성능을 향상시킬 수 있습니다. 하이퍼파라미터 튜닝은 이러한 설정을 최적화하여 모델의 효율성과 정확성을 향상시키는 기술입니다. 학습 중에 모델이 학습하는 파라미터와 달리 하이퍼파라미터는 학습 프로세스를 안내하는 미리 설정된 값입니다.

튜닝할 수 있는 하이퍼파라미터의 몇 가지 예를 살펴보겠습니다.

  • 학습률(Learning rate): 이 파라미터는 모델이 내부 가중치를 조정하기 위해 취하는 단계 크기를 제어합니다. 학습률이 높을수록 학습 속도가 빨라질 수 있지만 최적의 솔루션을 놓칠 위험이 있으며, 학습률이 낮을수록 더 정확하지만 속도가 느릴 수 있습니다.
  • 배치 크기(Batch size): 각 학습 단계에서 처리되는 데이터 샘플 수를 정의합니다. 배치 크기가 클수록 더 안정적인 학습을 제공하지만 더 많은 메모리가 필요합니다. 배치 크기가 작을수록 학습 속도는 빨라지지만 안정성이 떨어질 수 있습니다.
  • Epochs: 이 파라미터를 사용하여 모델이 전체 데이터 세트를 보는 횟수를 결정할 수 있습니다. Epochs 수가 많을수록 정확도가 향상될 수 있지만 과적합 위험이 있습니다.
  • 커널 크기: CNN(Convolutional Neural Networks)에서 필터 크기를 정의합니다. 커널이 클수록 더 넓은 패턴을 캡처하지만 더 많은 처리가 필요합니다. 커널이 작을수록 더 세밀한 세부 사항에 집중합니다.

하이퍼파라미터 튜닝 작동 방식

하이퍼파라미터 튜닝은 일반적으로 각 하이퍼파라미터에 대해 가능한 값의 범위를 정의하는 것으로 시작합니다. 그런 다음 검색 알고리즘은 이러한 범위 내에서 다양한 조합을 탐색하여 최고의 성능을 생성하는 설정을 식별합니다. 

일반적인 튜닝 방법으로는 그리드 검색, 랜덤 검색 및 베이지안 최적화가 있습니다. 그리드 검색은 지정된 범위 내에서 가능한 모든 값 조합을 테스트합니다. 랜덤 검색은 조합을 무작위로 선택하여 종종 더 빠르게 효과적인 설정을 찾습니다. 베이지안 최적화는 확률 모델을 사용하여 이전 결과를 기반으로 유망한 하이퍼파라미터 값을 예측합니다. 이 접근 방식은 일반적으로 필요한 시행 횟수를 줄입니다. 

궁극적으로 각 하이퍼파라미터 조합에 대해 모델의 성능이 평가됩니다. 원하는 결과가 얻어질 때까지 프로세스가 반복됩니다.

하이퍼파라미터 vs. 모델 파라미터

하이퍼파라미터 튜닝을 수행하는 동안 하이퍼파라미터와 모델 파라미터의 차이점이 무엇인지 궁금할 수 있습니다. 

하이퍼파라미터는 학습률 또는 배치 크기와 같이 학습 전에 설정되어 모델이 학습하는 방식을 제어하는 값입니다. 이러한 설정은 학습 중에 고정되며 학습 프로세스에 직접적인 영향을 미칩니다. 반면에 모델 파라미터는 학습 중에 모델 자체에서 학습됩니다. 여기에는 모델이 학습됨에 따라 조정되고 궁극적으로 예측을 안내하는 가중치 및 편향이 포함됩니다. 즉, 하이퍼파라미터는 학습 여정을 형성하고 모델 파라미터는 해당 학습 프로세스의 결과입니다.

__wf_reserved_inherit
그림 2. 파라미터와 하이퍼파라미터 비교. 

딥 러닝에서 모델 가지치기가 중요한 이유

모델 가지치기(pruning)는 모델에서 불필요한 가중치와 파라미터를 제거하여 효율성을 높이는 크기 축소 기술입니다. 컴퓨터 비전 분야, 특히 딥 신경망에서는 가중치 및 활성화(최종 출력을 계산하는 데 도움이 되는 중간 출력)와 같은 많은 수의 파라미터가 복잡성과 계산 요구량을 모두 증가시킬 수 있습니다. 가지치기는 성능에 미미한 영향을 주는 파라미터를 식별하고 제거하여 모델을 간소화하고, 더 가볍고 효율적인 모델을 만듭니다.

__wf_reserved_inherit
Fig3. 모델 가지치기 전후 비교.

모델 학습 후, 크기 기반 가지치기 또는 민감도 분석과 같은 기술을 사용하여 각 파라미터의 중요도를 평가할 수 있습니다. 중요도가 낮은 파라미터는 가중치 가지치기, 뉴런 가지치기 또는 구조적 가지치기의 세 가지 주요 기술 중 하나를 사용하여 제거됩니다. 

가중치 가지치기는 출력에 미치는 영향이 최소화되도록 개별 연결을 제거합니다. 뉴런 가지치기는 모델 기능에 거의 기여하지 않는 전체 뉴런을 제거합니다. 구조적 가지치기는 컨볼루션 필터 또는 완전 연결 계층의 뉴런과 같이 더 큰 섹션을 제거하여 모델 효율성을 최적화합니다. 가지치기가 완료되면 모델을 다시 학습시켜 남은 파라미터를 미세 조정하여 축소된 형태에서도 높은 정확도를 유지하도록 합니다.

양자화를 통한 AI 모델의 지연 시간 감소

모델 양자화는 모델의 가중치와 활성화를 나타내는 데 사용되는 비트 수를 줄입니다. 일반적으로 높은 정밀도의 32비트 부동 소수점 값을 16비트 또는 8비트 정수와 같은 낮은 정밀도로 변환합니다. 비트 정밀도를 줄임으로써 양자화는 모델 크기, 메모리 사용량 및 계산 비용을 크게 줄입니다.

컴퓨터 비전에서는 32비트 부동 소수점이 표준이지만, 16비트 또는 8비트로 변환하면 효율성을 향상시킬 수 있습니다. 양자화에는 가중치 양자화와 활성화 양자화의 두 가지 주요 유형이 있습니다. 가중치 양자화는 모델 가중치의 정밀도를 낮추어 크기 감소와 정확도 간의 균형을 맞춥니다. 활성화 양자화는 활성화의 정밀도를 줄여 메모리 및 계산 요구량을 더욱 줄입니다.

__wf_reserved_inherit
Fig 4. 32비트 부동 소수점에서 8비트 정수로의 양자화 예시.

혼합 정밀도가 AI 추론 속도를 높이는 방법

혼합 정밀도신경망의 다양한 부분에 대해 서로 다른 수치 정밀도를 사용하는 기술입니다. 32비트 부동 소수점과 같은 높은 정밀도 값과 16비트 또는 8비트 부동 소수점과 같은 낮은 정밀도 값을 결합함으로써 혼합 정밀도는 컴퓨터 비전 모델이 정확도를 희생하지 않고도 학습 속도를 높이고 메모리 사용량을 줄일 수 있도록 합니다.

학습 중에 혼합 정밀도는 네트워크 전체에서 필요한 곳에 더 높은 정밀도를 유지하면서 특정 계층에서 더 낮은 정밀도를 사용하여 달성됩니다. 이는 캐스팅 및 손실 스케일링을 통해 수행됩니다. 캐스팅은 모델에 필요한 대로 서로 다른 정밀도 간에 데이터 유형을 변환합니다. 손실 스케일링은 수치 언더플로를 방지하기 위해 감소된 정밀도를 조정하여 안정적인 학습을 보장합니다. 혼합 정밀도는 대규모 모델 및 대규모 배치 크기에 특히 유용합니다.

__wf_reserved_inherit
Fig 5. 혼합 정밀도 학습은 16비트(FP16) 및 32비트(FP32) 부동 소수점 유형을 모두 사용합니다.

모델 정확도와 효율성의 균형

이제 여러 모델 최적화 기술을 다루었으므로 특정 요구 사항에 따라 어떤 기술을 사용할지 결정하는 방법에 대해 논의해 보겠습니다. 선택은 사용 가능한 하드웨어, 배포 환경의 계산 및 메모리 제약 조건, 필요한 정확도 수준과 같은 요소에 따라 달라집니다. 

예를 들어, 더 작고 빠른 모델은 제한된 리소스가 있는 모바일 장치에 더 적합하고, 더 크고 정확한 모델은 고성능 시스템에서 사용할 수 있습니다. 각 기술이 서로 다른 목표와 어떻게 일치하는지는 다음과 같습니다.

  • 가지치기: 정확도에 큰 영향을 주지 않으면서 모델 크기를 줄이는 데 이상적이므로 휴대폰 또는 사물 인터넷(IoT) 장치와 같이 리소스가 제한된 장치에 적합합니다.
  • 양자화: 모델 크기를 줄이고 특히 메모리 및 처리 능력이 제한된 모바일 장치 및 임베디드 시스템에서 추론 속도를 높이는 데 적합한 옵션입니다. 약간의 정확도 감소가 허용되는 애플리케이션에 적합합니다.
  • 혼합 정밀도: 대규모 모델을 위해 설계된 이 기술은 혼합 정밀도 연산을 지원하는 GPU 및 TPU와 같은 하드웨어에서 메모리 사용량을 줄이고 학습 속도를 높입니다. 효율성이 중요한 고성능 작업에 자주 사용됩니다.
  • 하이퍼파라미터 튜닝: 계산 집약적이지만 의료 영상 또는 자율 주행과 같이 높은 정확도를 요구하는 애플리케이션에 필수적입니다.

주요 내용

모델 최적화는 머신 러닝, 특히 실제 애플리케이션에 AI를 배포하는 데 중요한 부분입니다. 하이퍼파라미터 튜닝, 모델 가지치기, 양자화 및 혼합 정밀도와 같은 기술은 컴퓨터 비전 모델의 성능, 효율성 및 리소스 사용을 개선하는 데 도움이 됩니다. 이러한 최적화는 모델을 더 빠르고 리소스 소모를 줄여 메모리 및 처리 능력이 제한된 장치에 이상적입니다. 최적화된 모델은 또한 다양한 플랫폼에서 확장하고 배포하기 쉬워 효과적이고 광범위한 용도에 적응할 수 있는 AI 솔루션을 가능하게 합니다.

Ultralytics GitHub 저장소를 방문하고 커뮤니티에 가입하여 제조농업 분야의 AI 애플리케이션에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.