컴퓨터 비전에서의 가지치기 및 양자화: 빠른 가이드

아비라미 비나

5분 읽기

2025년 7월 11일

컴퓨터 비전 모델을 최적화하고 엣지 디바이스에서 더 빠른 성능을 구현하기 위해 프루닝과 정량화가 필수적인 이유를 알아보세요.

엣지 디바이스는 기술의 발전과 함께 점점 더 보편화되고 있습니다. 심박수를 추적하는 스마트워치부터 거리를 모니터링하는 항공 드론까지, 엣지 시스템은 디바이스 자체에서 로컬로 데이터를 실시간으로 처리할 수 있습니다. 

이 방법은 특히 번호판 인식이나 제스처 추적과 같이 개인 데이터가 포함된 애플리케이션의 경우 클라우드로 데이터를 전송하는 것보다 더 빠르고 안전한 경우가 많습니다. 이는 기계가 시각 정보를 해석하고 이해할 수 있도록 하는 인공 지능(AI)의 한 분야인 컴퓨터 비전의 예입니다.

그림 1. 번호판 감지 예시.(출처)

그러나 중요한 고려 사항은 이러한 애플리케이션에는 최소한의 리소스를 사용하여 무거운 계산을 처리하고 독립적으로 작동할 수 있는 비전 AI 모델이 필요하다는 것입니다. 대부분의 컴퓨터 비전 모델은 고성능 시스템용으로 개발되었기 때문에 엣지 디바이스에 직접 배포하기에는 적합하지 않습니다. 

이러한 격차를 해소하기 위해 개발자는 종종 더 작은 하드웨어에서 효율적으로 실행되도록 모델을 조정하는 타겟 최적화를 적용합니다. 이러한 조정은 메모리와 처리 능력이 제한되어 있는 실제 엣지 배포에 매우 중요합니다. 

흥미롭게도 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 이미 엣지 효율성을 염두에 두고 설계되어 실시간 작업에 적합합니다. 그러나 프루닝 및 정량화와 같은 모델 최적화 기술을 사용하여 성능을 더욱 향상시킬 수 있으므로 제한된 장치에서 더욱 빠른 추론과 낮은 리소스 사용을 가능하게 합니다.

이 문서에서는 가지치기와 정량화가 무엇인지, 어떻게 작동하는지, 실제 엣지 배포에서 YOLO 모델의 성능을 어떻게 도울 수 있는지 자세히 살펴보겠습니다. 시작해 보겠습니다!

가지치기 및 정량화: 모델 최적화의 핵심 기술

엣지 디바이스에 배포하기 위해 Vision AI 모델을 준비할 때 핵심 목표 중 하나는 성능 저하 없이 모델을 가볍고 안정적으로 만드는 것입니다. 여기에는 메모리, 전력 또는 처리 용량이 제한된 하드웨어에서 효율적으로 작동할 수 있도록 모델의 크기와 계산 요구 사항을 줄이는 것이 포함됩니다. 이를 위한 두 가지 일반적인 방법은 가지치기와 정량화입니다.

가지치기는 신경망을 더 작고 효율적으로 만드는 데 도움이 되는 AI 모델 최적화 기법입니다. 대부분의 경우 특정 연결이나 노드와 같은 모델의 일부가 최종 예측에 크게 기여하지 않는 경우가 많습니다. 가지치기는 이러한 덜 중요한 부분을 식별하고 제거하여 모델의 크기를 줄이고 성능을 향상시키는 방식으로 작동합니다.

반면에 양자화는 모델이 사용하는 숫자의 정밀도를 낮추는 최적화 기법입니다. 고정밀 32비트 부동 소수점 숫자에 의존하는 대신 8비트 정수와 같은 더 작고 효율적인 형식으로 전환합니다. 이러한 변화는 메모리 사용량을 줄이고 모델이 예측하는 프로세스인 추론 속도를 높이는 데 도움이 됩니다.

그림 2. 가지치기 및 정량화 살펴보기.(출처)

가지치기 및 정량화 작동 방식

이제 가지 치 기와 정량화가 무엇인지 더 잘 이해했으니 두 가지가 어떻게 작동하는지 살펴보겠습니다. 

가지치기는 민감도 분석이라는 프로세스를 사용하여 수행됩니다. 민감도 분석은 신경망 모델에서 특정 가중치, 뉴런 또는 채널과 같이 최종 출력 예측에 가장 적게 기여하는 부분을 식별합니다. 이러한 부분은 정확도에 미치는 영향을 최소화하면서 제거할 수 있습니다. 가지치기 후에는 일반적으로 모델을 재학습하여 성능을 미세 조정합니다. 이 과정을 반복하여 크기와 정확도 사이의 적절한 균형을 찾을 수 있습니다.

한편, 모델 정량화는 모델이 데이터를 처리하는 방식에 초점을 맞춥니다. 모델 정량화는 샘플 데이터에서 모델을 실행하여 처리해야 하는 값의 범위를 학습하는 보정에서 시작됩니다. 그런 다음 해당 값을 32비트 부동 소수점에서 8비트 정수와 같은 낮은 정밀도 형식으로 변환합니다.

그림 3. 정량화는 모델 크기와 복잡성을 줄이는 데 도움이 됩니다.(출처)

실제 AI 프로젝트에서 가지 치기 및 정량화를 더 쉽게 사용할 수 있는 몇 가지 도구가 있습니다. PyTorch 및 TensorFlow와 같은 대부분의 AI 프레임워크에는 이러한 최적화 기법에 대한 기본 지원이 포함되어 있어 개발자가 모델 배포 프로세스에 직접 통합할 수 있습니다. 

모델이 최적화되면 ONNX 런타임과 같은 도구를 사용하여 서버, 데스크톱, 엣지 디바이스 등 다양한 하드웨어 플랫폼에서 효율적으로 실행할 수 있습니다. 또한 Ultralytics는 YOLO 모델을 정량화에 적합한 형식으로 내보낼 수 있는 통합 기능을 제공하여 모델 크기를 더 쉽게 줄이고 성능을 향상시킬 수 있습니다.

Ultralytics YOLO 모델 최적화에 대한 개요

YOLO11과 같은 Ultralytics YOLO 모델은 빠른 단일 단계 물체 감지 기능으로 널리 알려져 있어 실시간 비전 AI 작업에 이상적입니다. 이미 엣지 배포에 적합할 만큼 가볍고 효율적으로 설계되어 있습니다. 그러나 컨볼루션 레이어라고 하는 시각적 특징 처리를 담당하는 레이어는 추론 과정에서 여전히 상당한 컴퓨팅 성능을 요구할 수 있습니다.

YOLO11이 이미 엣지 사용에 최적화되어 있는데 왜 추가 최적화가 필요한지 궁금할 수 있습니다. 간단히 말해, 모든 엣지 디바이스가 동일한 것은 아닙니다. 일부는 표준 LED 전구보다 전력 소비가 적은 초소형 임베디드 프로세서와 같이 매우 최소한의 하드웨어로 실행됩니다. 

이러한 경우, YOLO11과 같은 간소화된 모델도 원활하고 안정적인 성능을 보장하기 위해 추가적인 최적화가 필요합니다. 가지 치기 및 정량화와 같은 기술은 정확도에 큰 영향을 주지 않으면서 모델의 크기를 줄이고 추론 속도를 높이는 데 도움이 되므로 이러한 제약이 있는 환경에 이상적입니다.

이러한 최적화 기법을 더 쉽게 적용할 수 있도록, Ultralytics는 YOLO 모델을 ONNX, TensorRT, OpenVINO, CoreML, PaddlePaddle과 같은 여러 형식으로 내보내는 데 사용할 수 있는 다양한 통합을 지원합니다. 각 형식은 특정 유형의 하드웨어 및 배포 환경에서 잘 작동하도록 설계되었습니다. 

예를 들어, ONNX는 다양한 도구 및 플랫폼과의 호환성으로 인해 양자화 워크플로우에 자주 사용됩니다. 반면에 TensorRT는 NVIDIA 장치에 고도로 최적화되어 있으며 INT8을 사용한 저정밀 추론을 지원하므로 엣지 GPU에 고속으로 배포하는 데 이상적입니다.

Ultralytics YOLO 모델 최적화의 영향력 있는 사용 사례

컴퓨터 비전이 다양한 실제 애플리케이션으로 계속 확장됨에 따라 최적화된 YOLO 모델을 사용하면 더 작고 빠른 하드웨어에서 객체 감지, 인스턴스 분할, 객체 추적과 같은 작업을 실행할 수 있습니다. 다음으로, 프루닝과 정량화를 통해 이러한 컴퓨터 비전 작업을 보다 효율적이고 실용적으로 수행할 수 있는 몇 가지 사용 사례에 대해 알아보겠습니다.

YOLO가 주도하는 스마트 감시11

공공장소뿐만 아니라 많은 산업 공간은 안전과 보안을 유지하기 위해 실시간 모니터링에 의존합니다. 환승역, 제조 현장, 대규모 실외 시설 같은 곳에는 사람이나 차량을 빠르고 정확하게 감지할 수 있는 Vision AI 시스템이 필요합니다. 이러한 장소에서는 제한된 연결과 하드웨어 제약으로 운영되는 경우가 많기 때문에 대형 모델을 배포하기가 어렵습니다.

이러한 경우 YOLO11과 같은 최적화된 Vision AI 모델이 훌륭한 솔루션이 될 수 있습니다. 컴팩트한 크기와 빠른 성능으로 임베디드 카메라나 스마트 센서와 같은 저전력 엣지 디바이스에서 실행하기에 적합합니다. 이 모델은 장치에서 직접 시각 데이터를 처리할 수 있으므로 지속적인 클라우드 액세스에 의존하지 않고도 안전 위반, 무단 액세스 또는 비정상적인 활동을 실시간으로 감지할 수 있습니다.

그림 4. YOLO11은 지하철역과 같은 공공장소를 모니터링하는 데 사용할 수 있습니다.

YOLO11을 통한 건설 현장의 안전 강화

건설 현장은 중장비와 움직이는 작업자, 끊임없는 활동으로 가득 찬 급박하고 예측하기 어려운 환경입니다. 일정 변경, 장비 이동, 갑작스러운 날씨 변화 등으로 인해 상황이 빠르게 변할 수 있습니다. 이러한 역동적인 환경에서 작업자의 안전은 지속적인 도전처럼 느껴질 수 있습니다.

실시간 모니터링은 매우 중요한 역할을 하지만 기존 시스템은 클라우드 액세스 또는 현장에서 실용적이지 않을 수 있는 고가의 하드웨어에 의존하는 경우가 많습니다. 바로 이 점에서 YOLO11과 같은 모델이 영향력을 발휘할 수 있습니다. YOLO11은 인터넷 연결 없이 현장에서 직접 작동하는 작고 효율적인 엣지 디바이스에서 실행되도록 최적화할 수 있습니다.

예를 들어 몇 에이커에 걸친 고속도로 확장 공사와 같은 대규모 건설 현장을 생각해 보세요. 이러한 유형의 환경에서는 모든 차량이나 장비를 수동으로 추적하는 것이 어렵고 시간이 많이 소요될 수 있습니다. 카메라와 최적화된 YOLO11 모델이 장착된 드론은 차량을 자동으로 감지 및 추적하고, 교통 흐름을 모니터링하며, 무단 접근이나 안전하지 않은 운전 행동과 같은 안전 문제를 식별하여 도움을 줄 수 있습니다.

그림 5. 건설 현장의 드론 이미지 분석.(출처)

컴퓨터 비전에서 가지 치기와 정량화의 장단점

다음은 가지 치기 및 정량화와 같은 컴퓨터 비전 모델 최적화 방법이 제공하는 몇 가지 주요 이점입니다:

  • 비용 효율적인 배포: 더 작고 효율적인 모델은 고가의 고급 하드웨어의 필요성을 줄여 다양한 사용 사례에서 AI에 대한 접근성과 확장성을 높일 수 있습니다.

  • 지연 시간 단축: 이러한 기술은 모델 아키텍처를 단순화하고 계산 오버헤드를 줄임으로써 실시간 애플리케이션에서 더 빠른 응답 시간을 달성하는 데 도움이 될 수 있습니다.

  • 에너지 효율성: 계산 부하를 줄이면 전력 소비도 줄어들어 배터리로 구동되는 시스템이나 모바일 시스템에 특히 유용합니다.

가지치기와 정량화는 많은 이점을 제공하지만, 개발자가 모델을 최적화할 때 고려해야 할 몇 가지 장단점도 있습니다. 다음은 염두에 두어야 할 몇 가지 제한 사항입니다:

  • 정확도 트레이드오프: 가지치기가 너무 공격적이거나 매우 낮은 비트 양자화를 사용하는 경우, mAP와 같은 메트릭으로 측정되는 모델의 정확도가 떨어질 수 있습니다.

  • 하드웨어 제약: 모든 디바이스가 INT8과 같은 저정밀 포맷을 똑같이 잘 지원하는 것은 아닙니다. 이로 인해 최적화된 모델을 배포할 수 있는 위치와 방법이 제한될 수 있습니다.

  • 구현 복잡성: 좋은 결과를 얻으려면 모델별로 세심한 튜닝이 필요한 경우가 많습니다. 개발자는 성능을 유지하면서 효율성을 개선하기 위해 모델을 재교육하고 광범위한 테스트를 수행해야 할 수도 있습니다.

주요 요점

가지치기와 정량화는 엣지 디바이스에서 YOLO 모델의 성능을 향상시키는 데 도움이 되는 유용한 기술입니다. 정확도의 눈에 띄는 손실 없이 모델의 크기를 줄이고, 컴퓨팅 요구 사항을 낮추며, 예측 속도를 높일 수 있습니다.

또한 이러한 최적화 방법을 통해 개발자는 모델을 완전히 다시 빌드할 필요 없이 다양한 유형의 하드웨어에 맞게 유연하게 조정할 수 있습니다. 약간의 튜닝과 테스트를 거치면 실제 상황에서 Vision AI를 더 쉽게 적용할 수 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 리포지토리를 살펴보고 AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작할 준비가 되셨나요? 라이선스 옵션을 확인해 보세요. 유니티의 솔루션 페이지를 방문하여 농업 분야의 AI와 의료 분야의 비전 AI에 대해 알아보세요! 

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨