YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

컴퓨터 비전의 가지치기 및 양자화: 빠른 가이드

Abirami Vina

5분 분량

2025년 7월 11일

컴퓨터 비전 모델을 최적화하고 엣지 장치에서 더 빠른 성능을 구현하는 데 가지치기 및 양자화가 필수적인 이유를 알아보세요.

첨단 기술이 발전함에 따라 엣지 장치가 점점 더 보편화되고 있습니다. 심박수를 추적하는 스마트워치에서 거리를 모니터링하는 항공 드론에 이르기까지 엣지 시스템은 장치 자체 내에서 실시간으로 데이터를 로컬에서 처리할 수 있습니다. 

이 방법은 특히 번호판 감지 또는 제스처 추적과 같이 개인 데이터와 관련된 애플리케이션의 경우 데이터를 클라우드로 보내는 것보다 빠르고 안전한 경우가 많습니다. 이는 기계가 시각 정보를 해석하고 이해할 수 있도록 하는 인공 지능(AI)의 한 분야인 컴퓨터 비전의 예입니다.

그림 1. 번호판 감지 예시입니다. (출처)

그러나 중요한 고려 사항은 이러한 애플리케이션은 최소한의 리소스를 사용하여 독립적으로 작동하고 과도한 계산을 처리할 수 있는 Vision AI 모델을 필요로 한다는 것입니다. 대부분의 컴퓨터 비전 모델은 고성능 시스템용으로 개발되어 엣지 장치에 직접 배포하는 데 적합하지 않습니다. 

이러한 격차를 해소하기 위해 개발자는 모델이 더 작은 하드웨어에서 효율적으로 실행되도록 조정하는 대상 최적화를 적용하는 경우가 많습니다. 이러한 조정은 메모리 및 처리 능력이 제한된 실제 에지 배포에 매우 중요합니다. 

흥미롭게도 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 이미 에지 효율성을 염두에 두고 설계되어 실시간 작업에 매우 적합합니다. 그러나 가지치기 및 양자화와 같은 모델 최적화 기술을 사용하여 성능을 더욱 향상시켜 제한된 장치에서 훨씬 더 빠른 추론과 낮은 리소스 사용량을 가능하게 할 수 있습니다.

본 문서에서는 가지치기 및 양자화가 무엇인지, 어떻게 작동하는지, 그리고 YOLO 모델이 실제 에지 환경에서 어떻게 성능을 발휘하는 데 도움이 되는지 자세히 살펴보겠습니다. 그럼 시작해 볼까요!

가지치기 및 양자화: 모델 최적화의 핵심 기술

에지 장치에 배포하기 위해 Vision AI 모델을 준비할 때 주요 목표 중 하나는 성능을 희생하지 않고 모델을 가볍고 안정적으로 만드는 것입니다. 여기에는 제한된 메모리, 전력 또는 처리 용량을 가진 하드웨어에서 효율적으로 작동할 수 있도록 모델의 크기와 계산 요구 사항을 줄이는 것이 포함됩니다. 이를 수행하는 두 가지 일반적인 방법은 가지치기 및 양자화입니다.

가지치기는 신경망을 더 작고 효율적으로 만드는 데 도움이 되는 AI 모델 최적화 기술입니다. 많은 경우 특정 연결 또는 노드와 같은 모델의 일부는 최종 예측에 크게 기여하지 않습니다. 가지치기는 이러한 덜 중요한 부분을 식별하고 제거하여 모델의 크기를 줄이고 성능을 향상시킵니다.

반면에, 양자화는 모델이 사용하는 숫자의 정밀도를 줄이는 최적화 기술입니다. 모델은 높은 정밀도의 32비트 부동 소수점 숫자에 의존하는 대신 8비트 정수와 같이 더 작고 효율적인 형식으로 전환합니다. 이러한 변경은 메모리 사용량을 줄이고 모델이 예측하는 프로세스인 추론 속도를 높이는 데 도움이 됩니다.

Fig 2. 가지치기 및 양자화 살펴보기. (출처)

Pruning 및 Quantization 작동 방식

이제 가지치기와 양자화가 무엇인지 더 잘 이해했으니, 이 두 가지가 어떻게 작동하는지 자세히 살펴보겠습니다. 

가지치기는 민감도 분석이라는 프로세스를 사용하여 수행됩니다. 이는 특정 가중치, 뉴런 또는 채널과 같은 신경망 모델의 어떤 부분이 최종 출력 예측에 가장 적게 기여하는지 식별합니다. 이러한 부분은 정확도에 미치는 영향을 최소화하면서 제거할 수 있습니다. 가지치기 후 모델은 일반적으로 성능을 미세 조정하기 위해 재훈련됩니다. 이 주기를 반복하여 크기와 정확도 간의 적절한 균형을 찾을 수 있습니다.

한편, 모델 양자화는 모델이 데이터를 처리하는 방식에 중점을 둡니다. 이는 모델이 처리해야 하는 값의 범위를 학습하기 위해 샘플 데이터에서 모델을 실행하는 보정으로 시작됩니다. 그런 다음 이러한 값은 32비트 부동 소수점에서 8비트 정수와 같은 더 낮은 정밀도 형식으로 변환됩니다.

Fig 3. 양자화는 모델 크기와 복잡성을 줄이는 데 도움이 됩니다. (출처)

실제 AI 프로젝트에서 가지치기 및 양자화를 더 쉽게 사용할 수 있도록 하는 여러 도구가 있습니다. PyTorch 및 TensorFlow와 같은 대부분의 AI 프레임워크에는 이러한 최적화 기술에 대한 기본 지원이 포함되어 있어 개발자가 모델 배포 프로세스에 직접 통합할 수 있습니다. 

모델이 최적화되면 ONNX Runtime과 같은 도구를 사용하여 서버, 데스크톱 및 에지 장치와 같은 다양한 하드웨어 플랫폼에서 효율적으로 실행할 수 있습니다. 또한 Ultralytics는 YOLO 모델을 양자화에 적합한 형식으로 내보낼 수 있도록 통합 기능을 제공하여 모델 크기를 줄이고 성능을 향상시키기 쉽습니다.

Ultralytics YOLO 모델 최적화 개요

YOLO11과 같은 Ultralytics YOLO 모델은 빠르고 단일 단계 객체 탐지로 널리 알려져 있어 실시간 Vision AI 작업에 이상적입니다. 이러한 모델은 이미 에지 배포에 적합할 만큼 가볍고 효율적으로 설계되었습니다. 그러나 시각적 특징을 처리하는 컨볼루션 레이어는 추론 중에 상당한 컴퓨팅 성능을 요구할 수 있습니다.

YOLO11이 이미 에지 사용에 최적화되어 있다면 왜 추가 최적화가 필요한지 궁금할 수 있습니다. 간단히 말해서 모든 에지 장치가 동일하지는 않습니다. 일부는 표준 LED 전구보다 전력을 덜 소비하는 작은 임베디드 프로세서와 같은 매우 최소한의 하드웨어에서 실행됩니다. 

이러한 경우 YOLO11과 같이 간소화된 모델조차도 원활하고 안정적인 성능을 보장하려면 추가 최적화가 필요합니다. 가지치기 및 양자화와 같은 기술은 정확도에 큰 영향을 미치지 않으면서 모델 크기를 줄이고 추론 속도를 높이는 데 도움이 되므로 이러한 제약된 환경에 이상적입니다.

이러한 최적화 기술을 보다 쉽게 적용할 수 있도록 Ultralytics는 YOLO 모델을 ONNX, TensorRT, OpenVINO, CoreML, PaddlePaddle과 같은 다양한 형식으로 내보내는 데 사용할 수 있는 다양한 통합 기능을 지원합니다. 각 형식은 특정 유형의 하드웨어 및 배포 환경에서 잘 작동하도록 설계되었습니다. 

예를 들어, ONNX는 광범위한 도구 및 플랫폼과의 호환성으로 인해 양자화 워크플로에서 자주 사용됩니다. 반면에 TensorRT는 NVIDIA 장치에 고도로 최적화되어 있으며 INT8을 사용하는 저정밀 추론을 지원하므로 에지 GPU에서 고속 배포에 이상적입니다.

Ultralytics YOLO 모델 최적화의 영향력 있는 사용 사례

컴퓨터 비전이 다양한 실제 애플리케이션으로 계속 확장됨에 따라 최적화된 YOLO 모델을 통해 더 작고 빠른 하드웨어에서 객체 감지, 인스턴스 분할 및 객체 추적과 같은 작업을 실행할 수 있습니다. 다음으로, 가지치기 및 양자화가 이러한 컴퓨터 비전 작업을 보다 효율적이고 실용적으로 만드는 몇 가지 사용 사례에 대해 논의해 보겠습니다.

YOLO11 기반 스마트 감시

많은 산업 공간과 공공 장소는 안전과 보안 유지를 위해 실시간 모니터링에 의존합니다. 교통 시설, 제조 현장, 대규모 야외 시설과 같은 장소에서는 사람이나 차량을 빠르고 정확하게 감지할 수 있는 Vision AI 시스템이 필요합니다. 종종 이러한 위치는 제한된 연결 및 하드웨어 제약 조건으로 인해 대규모 모델을 배포하기 어렵습니다.

이러한 경우 YOLO11과 같이 최적화된 Vision AI 모델이 훌륭한 솔루션이 될 수 있습니다. 컴팩트한 크기와 빠른 성능 덕분에 내장형 카메라 또는 스마트 센서와 같은 저전력 에지 장치에서 실행하는 데 적합합니다. 이러한 모델은 클라우드에 지속적으로 액세스하지 않고도 장치에서 직접 시각적 데이터를 처리하여 안전 위반, 무단 액세스 또는 비정상적인 활동을 실시간으로 감지할 수 있습니다.

그림 4. YOLO11은 지하철역과 같은 공공장소를 모니터링하는 데 사용할 수 있습니다.

YOLO11로 건설 현장의 안전 강화

건설 현장은 중장비, 이동하는 작업자 및 끊임없는 활동으로 가득 찬 빠르게 변화하고 예측할 수 없는 환경입니다. 일정 변경, 장비 이동 또는 갑작스러운 날씨 변화로 인해 조건이 빠르게 바뀔 수 있습니다. 이러한 역동적인 환경에서 작업자 안전은 지속적인 과제처럼 느껴질 수 있습니다.

실시간 모니터링은 중요한 역할을 하지만 기존 시스템은 클라우드 액세스 또는 현장에서 실용적이지 않을 수 있는 고가의 하드웨어에 의존하는 경우가 많습니다. 여기서 YOLO11과 같은 모델이 영향을 미칠 수 있습니다. YOLO11은 인터넷 연결 없이 현장에서 직접 작동하는 작고 효율적인 엣지 장치에서 실행되도록 최적화할 수 있습니다.

예를 들어, 여러 에이커에 걸쳐 있는 고속도로 확장과 같은 대규모 건설 현장을 생각해 보십시오. 이러한 유형의 환경에서는 모든 차량이나 장비를 수동으로 추적하는 것이 어렵고 시간이 많이 걸릴 수 있습니다. 카메라와 최적화된 YOLO11 모델이 장착된 드론은 차량을 자동으로 감지하고 추적하고, 교통 흐름을 모니터링하고, 무단 액세스 또는 안전하지 않은 운전 행동과 같은 안전 문제를 식별하는 데 도움을 줄 수 있습니다.

Fig 5. 건설 현장에서 드론 이미지를 분석하고 있습니다.

컴퓨터 비전에서 가지치기 및 양자화의 장단점

다음은 가지치기 및 양자화와 같은 컴퓨터 비전 모델 최적화 방법이 제공하는 주요 이점입니다.

  • 비용 효율적인 배포: 더 작고 효율적인 모델은 고가의 고급 하드웨어에 대한 필요성을 줄여 AI를 다양한 사용 사례에서 더 쉽게 접근하고 확장할 수 있도록 합니다.

  • 더 낮은 지연 시간: 모델 아키텍처를 단순화하고 계산 오버헤드를 줄임으로써 이러한 기술은 실시간 애플리케이션에서 더 빠른 응답 시간을 달성하는 데 도움이 될 수 있습니다.

  • 에너지 효율성: 계산 부하를 줄이면 전력 소비도 줄어들며, 이는 배터리 전원 또는 모바일 시스템에 특히 유용합니다.

가지치기 및 양자화는 많은 이점을 제공하지만, 모델을 최적화할 때 개발자가 고려해야 할 특정 절충점도 있습니다. 다음은 염두에 두어야 할 몇 가지 제한 사항입니다.

  • 정확도 절충: 가지치기를 너무 과도하게 하거나 매우 낮은 비트 양자화를 사용하면 mAP와 같은 지표로 측정되는 모델의 정확도가 떨어질 수 있습니다.

  • Hardware constraints: 모든 장치가 INT8과 같은 낮은 정밀도 형식을 똑같이 잘 지원하는 것은 아닙니다. 이로 인해 최적화된 모델을 배포할 수 있는 위치와 방법이 제한될 수 있습니다.

  • 구현 복잡성(Implementation complexity): 좋은 결과를 얻으려면 모델별로 신중한 튜닝이 필요한 경우가 많습니다. 개발자는 효율성을 개선하면서 성능을 유지하기 위해 모델을 재학습하고 광범위한 테스트를 수행해야 할 수 있습니다.

주요 내용

가지치기 및 양자화는 YOLO 모델이 에지 장치에서 더 나은 성능을 발휘하도록 돕는 유용한 기술입니다. 모델 크기를 줄이고, 컴퓨팅 요구 사항을 낮추고, 예측 속도를 높이는 동시에 정확도 손실은 거의 없습니다.

이러한 최적화 방법을 통해 개발자는 모델을 완전히 재구축하지 않고도 다양한 유형의 하드웨어에 맞게 모델을 조정할 수 있습니다. 약간의 조정과 테스트를 거치면 실제 상황에서 Vision AI를 더 쉽게 적용할 수 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인하세요. 솔루션 페이지를 방문하여 농업 분야의 AI와 헬스케어 분야의 Vision AI를 만나보세요! 

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.