YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

양자화 인식 훈련(QAT)

양자화 인식 훈련(QAT)을 통해 엣지 장치용 AI 모델을 최적화하여 리소스가 제한된 환경에서 높은 정확도와 효율성을 보장합니다.

양자화 인식 훈련(QAT)은 더 낮은 수치 정밀도로 배포할 수 있도록 신경망(NN)을 준비하는 고급 모델 최적화 기술입니다. 32비트 부동 소수점 숫자(FP32)를 사용하는 표준 훈련과 달리 QAT는 훈련 또는 미세 조정 프로세스 중에 8비트 정수(INT8) 계산의 영향을 시뮬레이션합니다. 모델이 추론 중에 발생할 양자화 오류를 "인식"하도록 함으로써 QAT는 모델이 정확도 손실 가능성을 최소화하도록 가중치를 조정할 수 있습니다. 이를 통해 리소스가 제한된 하드웨어에 배포하는 데 이상적인 고성능을 유지하는 컴팩트하고 효율적인 모델이 생성됩니다.

Quantization-Aware Training 작동 방식

QAT 과정은 일반적으로 사전 훈련된 FP32 모델로 시작됩니다. 부동 소수점 값을 낮은 정밀도 정수로 변환했다가 다시 변환하는 효과를 모방하는 "가짜" 양자화 노드가 모델 아키텍처에 삽입됩니다. 그런 다음 모델은 학습 데이터 세트에서 재학습됩니다. 이 재학습 단계에서 모델은 표준 역전파를 통해 양자화와 관련된 정보 손실에 적응하는 방법을 학습합니다. 이를 통해 모델은 감소된 정밀도에 덜 민감한 보다 강력한 가중치 세트를 찾을 수 있습니다. PyTorchTensorFlow와 같은 주요 딥러닝 프레임워크는 QAT 워크플로를 구현하기 위한 강력한 도구와 API를 제공합니다.

QAT vs. 사후 학습 양자화

QAT는 또 다른 일반적인 모델 양자화 방법인 Post-Training Quantization(PTQ)과 자주 비교됩니다. 주요 차이점은 양자화가 적용되는 시점에 있습니다.

  • 사후 훈련 양자화(PTQ): 이 방법은 모델이 완전히 훈련된 후에 적용됩니다. 재훈련이나 원래 훈련 데이터에 대한 접근이 필요 없는 더 간단하고 빠른 프로세스입니다. 그러나 특히 민감한 모델의 경우 모델 정확도가 크게 떨어질 수 있습니다.
  • 양자화 인식 훈련(QAT): 이 방법은 양자화를 훈련 루프에 통합합니다. 더 많은 계산이 필요하고 훈련 데이터에 대한 액세스가 필요하지만 QAT는 PTQ에 비해 최종 양자화된 모델에 대해 거의 항상 더 높은 정확도를 제공합니다. 성능을 최대화하는 것이 중요한 경우 선호되는 방법입니다.

QAT의 실제 응용

양자화 인식 훈련은 효율성이 중요한 리소스 제약적인 환경에서 정교한 AI 모델을 배포하는 데 필수적입니다.

  1. 온디바이스 컴퓨터 비전: 실시간 객체 탐지 기능이 필요한 증강 현실 앱 또는 사진 관리 도구 내의 이미지 분류와 같은 애플리케이션을 위해 Ultralytics YOLOv8과 같은 복잡한 컴퓨터 비전 모델을 스마트폰에서 직접 실행합니다. QAT를 사용하면 배터리 소모나 지연 시간 없이 이러한 모델을 효율적으로 실행할 수 있습니다.
  2. 자동차 및 로봇 공학 분야의 Edge AI: 자율 주행 차량에서 보행자 감지 또는 차선 유지 지원과 같은 작업이나 로봇 공학에서 물체 조작을 위한 모델을 배포합니다. QAT를 통해 이러한 모델을 Google Edge TPU 또는 NVIDIA Jetson과 같은 특수 하드웨어에서 실행하여 중요한 실시간 의사 결정을 위한 낮은 추론 지연 시간을 보장할 수 있습니다. 이는 보안 경보 시스템 또는 주차 관리와 같은 애플리케이션에 매우 중요합니다.

다른 최적화 기술과의 관계

QAT는 모델 배포 최적화를 위한 여러 기술 중 하나이며, 최대 효율을 위해 다른 기술과 함께 사용되는 경우가 많습니다.

  • 모델 가지치기: 네트워크에서 중복되거나 중요하지 않은 연결을 제거하는 것을 포함합니다. 모델을 먼저 가지치기한 다음 QAT를 거쳐 훨씬 더 큰 압축을 달성할 수 있습니다.
  • 지식 증류(Knowledge Distillation): 더 작은 "학생" 모델을 훈련하여 더 큰 "교사" 모델을 모방합니다. 결과 학생 모델은 QAT를 사용하여 추가로 최적화할 수 있습니다.

Ultralytics는 ONNX, TensorRTTFLite와 같은 다양한 형식으로 모델 내보내기를 지원하며, 이러한 형식은 QAT 워크플로와 호환되어 IntelNVIDIA와 같은 회사의 다양한 하드웨어에서 효율적인 배포가 가능합니다. Ultralytics HUB와 같은 플랫폼을 사용하여 QAT에 최적화된 모델을 관리하고 배포할 수 있습니다. QAT 후 관련 지표를 사용하여 모델 성능을 평가하는 것은 정확도 요구 사항이 충족되는지 확인하는 데 필수적입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.