용어집

수량화 인식 교육(QAT)

리소스가 제한된 환경에서 높은 정확도와 효율성을 보장하는 양자화 인식 학습(QAT)을 통해 엣지 디바이스에 맞게 AI 모델을 최적화하세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

양자화 인식 학습(QAT)은 다음과 같은 딥 러닝(DL) 모델을 최적화하는 데 사용되는 강력한 기술입니다. Ultralytics YOLO 모델과 같은 딥 러닝(DL) 모델을 최적화하여 휴대폰이나 임베디드 시스템과 같이 컴퓨팅 리소스가 제한된 디바이스에 배포하는 데 사용되는 강력한 기술입니다. 표준 모델은 계산에 고정밀 숫자(예: 32비트 부동 소수점 또는 FP32)를 사용하는 경우가 많기 때문에 상당한 처리 능력과 메모리가 필요합니다. QAT는 저정밀 숫자(예: 8비트 정수 또는 INT8)를 사용하더라도 잘 작동하도록 훈련 단계에서 모델을 준비함으로써 이러한 수요를 줄여 엣지 디바이스에서 높은 정확도와 효율적인 성능 사이의 간극을 메우는 것을 목표로 합니다. 이러한 최적화는 스마트폰이나 IoT 센서와 같은 하드웨어에서 복잡한 AI 작업을 직접 수행할 수 있도록 하는 데 매우 중요합니다.

정량화 인식 교육 작동 방식

모델이 완전히 학습된 양자화하는 방법과 달리, QAT는 양자화 효과의 시뮬레이션을 학습 프로세스에 직접 통합합니다. 이는 훈련 중에 모델 아키텍처 내에 '가짜 양자화' 노드라고 하는 연산을 도입합니다. 이러한 노드는 포워드 패스 동안 모델 가중치와 활성화에 대한 낮은 정밀도(예: INT8 정밀도)의 효과를 모방하여 실제 양자화된 모델에서와 같이 값을 반올림합니다. 그러나 백워드 패스(모델이 역전파를 통해 학습하는 경우) 동안에는 일반적으로 표준 고정밀 부동 소수점 숫자를 사용하여 그라데이션을 계산하고 업데이트를 적용합니다. 이를 통해 모델의 파라미터가 실제 양자화된 추론 중에 발생할 수 있는 정밀도 손실에 견고하게 적응하고 학습할 수 있습니다. 훈련 중에 양자화의 효과를 '확인'함으로써 모델은 모델 최적화 전략에서 논의되는 핵심 사항인 저정밀 형식의 모델 배포와 관련된 정확도 저하를 최소화합니다. TensorFlow Lite와 같은 프레임워크와 PyTorch 와 같은 프레임워크는 QAT를 구현하기 위한 도구를 제공합니다.

관련 개념과의 차이점

QAT 대 모델 정량화(교육 후)

가장 큰 차이점은 양자화가 적용되는 시점에 있습니다. 흔히 훈련 후 정량화(PTQ)라고도 하는 모델 정량화는 훈련이 완료된 후 사전 훈련된 고정밀 모델을 고정밀도가 낮은 형식으로 변환하는 것입니다. PTQ는 일반적으로 재학습이나 원래 학습 데이터 세트에 대한 액세스가 필요하지 않으므로 구현하기가 더 간단합니다. 그러나 특히 물체 감지나 이미지 분할과 같은 복잡한 작업을 수행하는 복잡한 모델의 경우 모델 정확도가 눈에 띄게 저하될 수 있습니다. 반면, QAT는 훈련 중에 양자화를 시뮬레이션하여 모델이 본질적으로 정밀도 감소에 더 강해집니다. 따라서 더 많은 계산 리소스와 학습 데이터에 대한 액세스가 필요하지만 PTQ에 비해 최종 양자화된 모델의 정확도가 더 높은 경우가 많습니다. 양자화 친화적인 블록을 통합하는 YOLO 같은 모델의 경우, QAT는 정밀도 손실을 최소화하면서 상당한 성능 이점을 얻을 수 있습니다.

QAT 대 혼합 정밀도

두 기법 모두 수치적 정밀도를 포함하지만, 그 목표는 다릅니다. 혼합 정밀도 훈련은 주로 계산 및 저장에 저정밀도(예: 16비트 부동 소수점 또는 FP16)와 표준 정밀도(32비트 부동 소수점) 형식을 조합하여 훈련 프로세스 자체의 속도를 높이고 훈련 중 메모리 사용량을 줄이는 것을 목표로 합니다. QAT는 특히 모델 배포 후 저정밀 정수 형식(예: INT8)을 사용하여 효율적인 추론을 위해 모델을 최적화하는 데 중점을 둡니다. 혼합 정밀도는 훈련 중에 도움이 되지만, QAT는 최종 모델이 NPU (신경 처리 장치) 또는 TPU와 같은 양자화된 추론 하드웨어의 제약 조건 하에서 잘 작동하도록 보장합니다.

QAT의 실제 적용 사례

정량화 인식 훈련은 효율성이 중요한 리소스 제약 환경에서 정교한 AI 모델을 배포하는 데 필수적입니다.

  1. 온디바이스 컴퓨터 비전: 다음과 같은 복잡한 컴퓨터 비전 모델 실행 Ultralytics YOLOv8 와 같은 복잡한 컴퓨터 비전 모델을 스마트폰에서 직접 실행하여 증강 현실 앱의 실시간 물체 감지 또는 사진 관리 도구 내 이미지 분류와 같은 애플리케이션을 구현할 수 있습니다. QAT를 사용하면 이러한 모델을 배터리 소모나 지연 시간 없이 효율적으로 실행할 수 있습니다.
  2. 자동차 및 로보틱스 분야의 엣지 AI: 자율주행 차량의 보행자 감지 또는 차선 유지 지원이나 로봇 공학에서 물체 조작과 같은 작업을 위한 모델을 배포합니다. QAT를 사용하면 이러한 모델을 Google Edge TPU 또는 NVIDIA Jetson과 같은 특수 하드웨어에서 실행할 수 있으므로 중요한 실시간 의사 결정을 위한 짧은 추론 지연 시간을 보장할 수 있습니다. 이는 보안 경보 시스템이나 주차 관리와 같은 애플리케이션에 매우 중요합니다.

Ultralytics 다음과 같은 다양한 형식으로 모델 내보내기를 지원합니다. ONNX, TensorRTTFLite와 같은 다양한 포맷으로 모델을 내보낼 수 있어 다양한 하드웨어에 효율적으로 배포할 수 있습니다. Ultralytics HUB와 같은 플랫폼을 사용하여 QAT에 최적화된 모델을 관리하고 배포할 수 있습니다. 정확도 요구 사항을 충족하려면 QAT 후 관련 메트릭을 사용하여 모델 성능을 평가하는 것이 필수적입니다.

모두 보기