Yolo 비전 선전
선전
지금 참여하기

컴퓨터 비전의 가지치기 및 양자화: 빠른 가이드

Abirami Vina

5분 분량

2025년 7월 11일

컴퓨터 비전 모델을 최적화하고 엣지 장치에서 더 빠른 성능을 구현하는 데 가지치기 및 양자화가 필수적인 이유를 알아보세요.

엣지 디바이스는 기술의 발전과 함께 점점 더 보편화되고 있습니다. 심박수를 track 스마트워치부터 거리를 모니터링하는 항공 드론까지, 엣지 시스템은 디바이스 자체에서 로컬로 데이터를 실시간으로 처리할 수 있습니다. 

이 방법은 특히 번호판 감지 또는 제스처 추적과 같이 개인 데이터와 관련된 애플리케이션의 경우 데이터를 클라우드로 보내는 것보다 빠르고 안전한 경우가 많습니다. 이는 기계가 시각 정보를 해석하고 이해할 수 있도록 하는 인공 지능(AI)의 한 분야인 컴퓨터 비전의 예입니다.

그림 1. 번호판 감지 예시입니다. (출처)

그러나 중요한 고려 사항은 이러한 애플리케이션은 최소한의 리소스를 사용하여 독립적으로 작동하고 과도한 계산을 처리할 수 있는 Vision AI 모델을 필요로 한다는 것입니다. 대부분의 컴퓨터 비전 모델은 고성능 시스템용으로 개발되어 엣지 장치에 직접 배포하는 데 적합하지 않습니다. 

이러한 격차를 해소하기 위해 개발자는 모델이 더 작은 하드웨어에서 효율적으로 실행되도록 조정하는 대상 최적화를 적용하는 경우가 많습니다. 이러한 조정은 메모리 및 처리 능력이 제한된 실제 에지 배포에 매우 중요합니다. 

흥미롭게도 다음과 같은 컴퓨터 비전 모델은 Ultralytics YOLO11 와 같은 컴퓨터 비전 모델은 이미 엣지 효율성을 염두에 두고 설계되었기 때문에 실시간 작업에 적합합니다. 그러나 프루닝 및 정량화와 같은 모델 최적화 기술을 사용하여 성능을 더욱 향상시킬 수 있으므로 제한된 장치에서 더욱 빠른 추론과 낮은 리소스 사용을 가능하게 합니다.

이 문서에서는 가지치기와 정량화가 무엇인지, 어떻게 작동하는지, 실제 엣지 배포에서 YOLO 모델의 성능을 어떻게 도울 수 있는지 자세히 살펴보겠습니다. 시작해 보겠습니다!

가지치기 및 양자화: 모델 최적화의 핵심 기술

에지 장치에 배포하기 위해 Vision AI 모델을 준비할 때 주요 목표 중 하나는 성능을 희생하지 않고 모델을 가볍고 안정적으로 만드는 것입니다. 여기에는 제한된 메모리, 전력 또는 처리 용량을 가진 하드웨어에서 효율적으로 작동할 수 있도록 모델의 크기와 계산 요구 사항을 줄이는 것이 포함됩니다. 이를 수행하는 두 가지 일반적인 방법은 가지치기 및 양자화입니다.

가지치기는 신경망을 더 작고 효율적으로 만드는 데 도움이 되는 AI 모델 최적화 기술입니다. 많은 경우 특정 연결 또는 노드와 같은 모델의 일부는 최종 예측에 크게 기여하지 않습니다. 가지치기는 이러한 덜 중요한 부분을 식별하고 제거하여 모델의 크기를 줄이고 성능을 향상시킵니다.

반면에, 양자화는 모델이 사용하는 숫자의 정밀도를 줄이는 최적화 기술입니다. 모델은 높은 정밀도의 32비트 부동 소수점 숫자에 의존하는 대신 8비트 정수와 같이 더 작고 효율적인 형식으로 전환합니다. 이러한 변경은 메모리 사용량을 줄이고 모델이 예측하는 프로세스인 추론 속도를 높이는 데 도움이 됩니다.

Fig 2. 가지치기 및 양자화 살펴보기. (출처)

Pruning 및 Quantization 작동 방식

이제 가지치기와 양자화가 무엇인지 더 잘 이해했으니, 이 두 가지가 어떻게 작동하는지 자세히 살펴보겠습니다. 

가지치기는 민감도 분석이라는 프로세스를 사용하여 수행됩니다. 이는 특정 가중치, 뉴런 또는 채널과 같은 신경망 모델의 어떤 부분이 최종 출력 예측에 가장 적게 기여하는지 식별합니다. 이러한 부분은 정확도에 미치는 영향을 최소화하면서 제거할 수 있습니다. 가지치기 후 모델은 일반적으로 성능을 미세 조정하기 위해 재훈련됩니다. 이 주기를 반복하여 크기와 정확도 간의 적절한 균형을 찾을 수 있습니다.

한편, 모델 양자화는 모델이 데이터를 처리하는 방식에 중점을 둡니다. 이는 모델이 처리해야 하는 값의 범위를 학습하기 위해 샘플 데이터에서 모델을 실행하는 보정으로 시작됩니다. 그런 다음 이러한 값은 32비트 부동 소수점에서 8비트 정수와 같은 더 낮은 정밀도 형식으로 변환됩니다.

Fig 3. 양자화는 모델 크기와 복잡성을 줄이는 데 도움이 됩니다. (출처)

실제 AI 프로젝트에서 가지 치기 및 정량화를 더 쉽게 사용할 수 있는 몇 가지 도구가 있습니다. PyTorch 및 TensorFlow 같은 대부분의 AI 프레임워크에는 이러한 최적화 기법에 대한 기본 지원이 포함되어 있어 개발자가 모델 배포 프로세스에 직접 통합할 수 있습니다. 

모델이 최적화되면 ONNX 런타임과 같은 도구를 사용하여 서버, 데스크톱, 엣지 디바이스 등 다양한 하드웨어 플랫폼에서 효율적으로 실행할 수 있습니다. 또한 Ultralytics YOLO 모델을 정량화에 적합한 형식으로 내보낼 수 있는 통합 기능을 제공하여 모델 크기를 더 쉽게 줄이고 성능을 향상시킬 수 있습니다.

Ultralytics YOLO 모델 최적화에 대한 개요

YOLO11 같은 Ultralytics YOLO 모델은 빠른 단일 단계 물체 감지 기능으로 널리 알려져 있어 실시간 비전 AI 작업에 이상적입니다. 이미 엣지 배포에 적합할 만큼 가볍고 효율적으로 설계되어 있습니다. 그러나 컨볼루션 레이어라고 하는 시각적 특징 처리를 담당하는 레이어는 추론 과정에서 여전히 상당한 컴퓨팅 성능을 요구할 수 있습니다.

YOLO11 이미 엣지 사용에 최적화되어 있는데 왜 추가 최적화가 필요한지 궁금할 수 있습니다. 간단히 말해, 모든 엣지 디바이스가 동일한 것은 아닙니다. 일부는 표준 LED 전구보다 전력 소비가 적은 초소형 임베디드 프로세서와 같이 매우 최소한의 하드웨어로 실행됩니다. 

이러한 경우, YOLO11 같은 간소화된 모델도 원활하고 안정적인 성능을 보장하기 위해 추가적인 최적화가 필요합니다. 가지 치기 및 정량화와 같은 기술은 정확도에 큰 영향을 주지 않으면서 모델의 크기를 줄이고 추론 속도를 높이는 데 도움이 되므로 이러한 제약이 있는 환경에 이상적입니다.

이러한 최적화 기법을 더 쉽게 적용할 수 있도록, Ultralytics YOLO 모델을 ONNX, TensorRT, OpenVINO, CoreML, PaddlePaddle 같은 여러 형식으로 내보내는 데 사용할 수 있는 다양한 통합을 지원합니다. 각 형식은 특정 유형의 하드웨어 및 배포 환경에서 잘 작동하도록 설계되었습니다. 

예를 들어, ONNX 다양한 도구 및 플랫폼과의 호환성으로 인해 양자화 워크플로우에 자주 사용됩니다. 반면에 TensorRT NVIDIA 장치에 고도로 최적화되어 있으며 INT8을 사용한 저정밀 추론을 지원하므로 엣지 GPU에 고속으로 배포하는 데 이상적입니다.

Ultralytics YOLO 모델 최적화의 영향력 있는 사용 사례

컴퓨터 비전이 다양한 실제 애플리케이션으로 계속 확장됨에 따라 최적화된 YOLO 모델을 사용하면 더 작고 빠른 하드웨어에서 객체 감지, 인스턴스 분할, 객체 추적과 같은 작업을 실행할 수 있습니다. 다음으로, 프루닝과 정량화를 통해 이러한 컴퓨터 비전 작업을 보다 효율적이고 실용적으로 수행할 수 있는 몇 가지 사용 사례에 대해 알아보겠습니다.

YOLO11 주도하는 스마트 YOLO11

공공장소뿐만 아니라 많은 산업 공간은 안전과 보안을 유지하기 위해 실시간 모니터링에 의존합니다. 환승역, 제조 현장, 대규모 실외 시설 같은 곳에는 사람이나 차량을 빠르고 정확하게 detect 수 있는 Vision AI 시스템이 필요합니다. 이러한 장소에서는 제한된 연결과 하드웨어 제약으로 운영되는 경우가 많기 때문에 대형 모델을 배포하기가 어렵습니다.

이러한 경우 YOLO11 같은 최적화된 Vision AI 모델이 훌륭한 솔루션이 될 수 있습니다. 컴팩트한 크기와 빠른 성능으로 임베디드 카메라나 스마트 센서와 같은 저전력 엣지 디바이스에서 실행하기에 적합합니다. 이 모델은 장치에서 직접 시각 데이터를 처리할 수 있으므로 지속적인 클라우드 액세스에 의존하지 않고도 안전 위반, 무단 액세스 또는 비정상적인 활동을 실시간으로 감지할 수 있습니다.

그림 4. YOLO11 지하철역과 같은 공공장소를 모니터링하는 데 사용할 수 있습니다.

YOLO11 통한 건설 현장의 안전 강화

건설 현장은 중장비, 이동하는 작업자 및 끊임없는 활동으로 가득 찬 빠르게 변화하고 예측할 수 없는 환경입니다. 일정 변경, 장비 이동 또는 갑작스러운 날씨 변화로 인해 조건이 빠르게 바뀔 수 있습니다. 이러한 역동적인 환경에서 작업자 안전은 지속적인 과제처럼 느껴질 수 있습니다.

실시간 모니터링은 매우 중요한 역할을 하지만 기존 시스템은 클라우드 액세스 또는 현장에서 실용적이지 않을 수 있는 고가의 하드웨어에 의존하는 경우가 많습니다. 바로 이 점에서 YOLO11 같은 모델이 영향력을 발휘할 수 있습니다. YOLO11 인터넷 연결 없이 현장에서 직접 작동하는 작고 효율적인 엣지 디바이스에서 실행되도록 최적화할 수 있습니다.

예를 들어 몇 에이커에 걸친 고속도로 확장 공사와 같은 대규모 건설 현장을 생각해 보세요. 이러한 유형의 환경에서는 모든 차량이나 장비를 수동으로 추적하는 것이 어렵고 시간이 많이 소요될 수 있습니다. 카메라와 최적화된 YOLO11 모델이 장착된 드론은 차량을 자동으로 감지 및 추적하고, 교통 흐름을 모니터링하며, 무단 접근이나 안전하지 않은 운전 행동과 같은 안전 문제를 식별하여 도움을 줄 수 있습니다.

Fig 5. 건설 현장에서 드론 이미지를 분석하고 있습니다.

컴퓨터 비전에서 가지치기 및 양자화의 장단점

다음은 가지치기 및 양자화와 같은 컴퓨터 비전 모델 최적화 방법이 제공하는 주요 이점입니다.

  • 비용 효율적인 배포: 더 작고 효율적인 모델은 고가의 고급 하드웨어에 대한 필요성을 줄여 AI를 다양한 사용 사례에서 더 쉽게 접근하고 확장할 수 있도록 합니다.

  • 더 낮은 지연 시간: 모델 아키텍처를 단순화하고 계산 오버헤드를 줄임으로써 이러한 기술은 실시간 애플리케이션에서 더 빠른 응답 시간을 달성하는 데 도움이 될 수 있습니다.

  • 에너지 효율성: 계산 부하를 줄이면 전력 소비도 줄어들며, 이는 배터리 전원 또는 모바일 시스템에 특히 유용합니다.

가지치기 및 양자화는 많은 이점을 제공하지만, 모델을 최적화할 때 개발자가 고려해야 할 특정 절충점도 있습니다. 다음은 염두에 두어야 할 몇 가지 제한 사항입니다.

  • 정확도 트레이드오프: 가지치기가 너무 공격적이거나 매우 낮은 비트 양자화를 사용하는 경우, mAP 같은 메트릭으로 측정되는 모델의 정확도가 떨어질 수 있습니다.

  • Hardware constraints: 모든 장치가 INT8과 같은 낮은 정밀도 형식을 똑같이 잘 지원하는 것은 아닙니다. 이로 인해 최적화된 모델을 배포할 수 있는 위치와 방법이 제한될 수 있습니다.

  • 구현 복잡성(Implementation complexity): 좋은 결과를 얻으려면 모델별로 신중한 튜닝이 필요한 경우가 많습니다. 개발자는 효율성을 개선하면서 성능을 유지하기 위해 모델을 재학습하고 광범위한 테스트를 수행해야 할 수 있습니다.

주요 내용

가지치기와 정량화는 엣지 디바이스에서 YOLO 모델의 성능을 향상시키는 데 도움이 되는 유용한 기술입니다. 정확도의 눈에 띄는 손실 없이 모델의 크기를 줄이고, 컴퓨팅 요구 사항을 낮추며, 예측 속도를 높일 수 있습니다.

이러한 최적화 방법을 통해 개발자는 모델을 완전히 재구축하지 않고도 다양한 유형의 하드웨어에 맞게 모델을 조정할 수 있습니다. 약간의 조정과 테스트를 거치면 실제 상황에서 Vision AI를 더 쉽게 적용할 수 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인하세요. 솔루션 페이지를 방문하여 농업 분야의 AI와 헬스케어 분야의 Vision AI를 만나보세요! 

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기