Yolo 비전 선전
선전
지금 참여하기
용어집

모델 양자화

모델 양자화로 AI 성능을 최적화하세요. 크기를 줄이고, 속도를 높이고, 실제 배포를 위한 에너지 효율성을 개선하세요.

모델 정량화는 머신러닝의 혁신적인 기술로 머신 러닝의 혁신적인 기술입니다. 계산 및 메모리 비용을 줄이기 위해 계산 및 메모리 비용을 줄이기 위해 고안된 혁신적인 기술입니다. 모델의 매개변수(특히 가중치와 활성화)를 고정밀 부동 소수점 숫자(일반적으로 32비트)로 변환함으로써 매개변수(특히 가중치 및 활성화)를 고정밀 부동 소수점 숫자(일반적으로 32비트, 즉 FP32)에서 8비트 정수(INT8)와 같은 저정밀 형식으로 변환함으로써 개발자는 모델의 파일 크기를 크게 줄일 수 있습니다. 모델의 파일 크기를 크게 줄일 수 있습니다. 이 프로세스는 다음과 같은 기능을 구현하는 데 필수적입니다. 제한된 리소스로 하드웨어에 효율적인 모델 배포 스마트폰부터 산업용 센서에 이르기까지 모든 기기에서 정교한 AI 기능을 원활하게 실행할 수 있도록 지원합니다. 산업용 센서까지.

모델 양자화는 어떻게 작동하나요?

양자화의 핵심 메커니즘은 넓은 범위의 연속형 값을 더 작은 불연속형 값 집합에 매핑하는 것입니다. 값으로 매핑하는 것입니다. 일반적인 딥러닝 모델에서 매개변수는 32비트 부동소수점 숫자로 저장되어 학습 단계에서 높은 정확도를 유지합니다. 높은 정확도를 유지하기 위해 매개변수를 32비트 부동 소수점으로 저장합니다. 하지만 추론 단계에서는 이러한 수준의 정밀도가 불필요한 경우가 많습니다.

양자화는 이러한 값을 압축하여 모델 가중치를 가져오는 데 필요한 메모리 대역폭을 줄이고 모델 가중치를 가져오는 데 필요한 메모리 대역폭을 줄이고 수학적 연산을 가속화합니다. CPU와 GPU와 같은 전문 가속기를 포함한 최신 하드웨어에는 종종 부동 소수점보다 더 빠르고 에너지 효율적인 정수 연산을 위한 전용 명령어 세트가 있습니다. 보다 더 빠르고 에너지 효율적입니다. 이러한 최적화를 통해 추론 지연 시간을 최소화하여 실시간 애플리케이션에서 더 빠른 사용자 실시간 애플리케이션에서 더 빠른 사용자 경험을 제공합니다.

정량화 유형

이 최적화를 적용하는 데는 두 가지 기본 접근 방식이 있으며, 각각 개발 단계에 따라 다릅니다. 수명 주기:

  • 학습 후 정량화(PTQ): 이 방법은 모델이 완전히 학습된 후에 적용됩니다. 이 방법은 활성화 및 가중치의 동적 범위를 결정하기 위해 보정 데이터 세트가 필요합니다. 다음과 같은 도구 TensorFlow 라이트는 강력한 강력한 지원을 제공하므로 빠른 최적화를 위해 널리 사용됩니다.
  • 양자화 인식 훈련(QAT): 이 접근 방식에서는 모델이 트레이닝 프로세스 자체에서 양자화의 효과를 시뮬레이션합니다. "가짜" 양자화 노드를 도입함으로써 네트워크는 은 낮은 정밀도에 적응하는 방법을 학습하여 PTQ에 비해 정확도를 더 잘 유지할 수 있습니다. 이 특정 기법에 대한 이 특정 기술에 대한 자세한 내용은 양자화 인식 훈련(QAT) 페이지에서 자세히 알아보세요.

실제 애플리케이션

정량화는 엣지 AI의 초석으로, 클라우드 연결에 의존하지 않고 디바이스에서 복잡한 복잡한 작업을 클라우드 연결에 의존하지 않고 디바이스에서 로컬로 수행할 수 있습니다.

  1. 모바일 컴퓨터 비전: 실시간 배경 흐림이나 얼굴 필터와 같은 기능을 제공하는 스마트폰 앱은 얼굴 필터와 같은 기능을 제공하는 스마트폰 앱은 정량화된 모델에 의존합니다. 예를 들어, 스마트폰에서 휴대폰에서 물체 감지 모델을 실행하려면 배터리 소모와 과열을 방지하기 위해 높은 효율성이 필요합니다.
  2. 산업용 IoT 및 로봇 공학: 로봇 공학에서 로봇 공학에서 자율 장치는 종종 배터리 전원으로 작동하며 배터리 전원으로 작동하며 다음과 같은 임베디드 프로세서를 사용합니다. NVIDIA 젯슨. 정량화된 모델을 사용하면 이러한 로봇이 내비게이션 및 장애물 회피를 위한 시각 데이터를 최소한의 지연으로 처리할 수 있으며, 이는 자율 주행 차량의 안전에 매우 중요합니다. 안전에 매우 중요합니다.

Ultralytics YOLO 정량화 구현하기

Ultralytics 프레임워크는 모델을 정량화 친화적인 형식으로 내보내는 프로세스를 간소화합니다. 다음 예제는 YOLO11 모델을 TFLite 로 내보내는 방법을 보여줍니다. 이 프로세스는 지정된 데이터를 사용하여 자동으로 캘리브레이션을 처리합니다.

from ultralytics import YOLO

# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")

# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")

양자화 vs. 기타 최적화 기술

정량화를 다른 모델 최적화 전략과 구별하는 것이 도움이 됩니다. 모델 최적화 전략과 구별하는 것이 도움이 됩니다, 종종 함께 사용되지만 작동 방식이 다르기 때문입니다:

  • 양자화 대 가지치기: 양자화는 가중치의 정밀도를 떨어뜨리는 반면, 모델 가지치기는 불필요한 연결(가중치)을 완전히 제거하여 연결(가중치)을 완전히 제거하여 희박한 네트워크를 생성합니다. 가지치기는 구조를 변경하는 반면, 양자화는 데이터 유형을 변경합니다. 은 데이터 유형을 변경합니다.
  • 정량화 대 증류: 지식 증류는 더 작은 학생 모델을 더 큰 교사 모델을 모방하도록 학습시킵니다. 나중에 학생 모델에 정량화를 적용하여 크기를 더욱 크기를 줄일 수 있습니다.
  • 정량화 대 혼합 정밀도: 혼합 정밀도는 주로 훈련 기법 으로, FP16과 FP32를 혼합하여 훈련 속도를 높이고 GPU의 메모리 사용량을 줄이는 반면, 양자화는 일반적으로 정수를 사용한 추론 시간 최적화입니다.

향후 개발

하드웨어 가속기가 더욱 전문화됨에 따라 양자화의 중요성이 계속 커지고 있습니다. 미래의 Ultralytics 연구(예: 곧 발표될 YOLO26)의 목표는 공격적인 양자화에 기본적으로 강력한 아키텍처를 설계하여 공격적인 양자화에 기본적으로 견고한 아키텍처를 설계하여 효율성을 더욱 높이는 것을 목표로 합니다. 고성능 컴퓨터 비전 을 초소형 엣지 디바이스에서도 계속 이용할 수 있도록 하는 것을 목표로 합니다.

보다 폭넓은 호환성을 위해 다음과 같은 상호 운용 가능한 표준을 사용하여 정량화된 모델을 배포하는 경우가 많습니다. ONNX 또는 최적화된 추론 엔진과 같은 TensorRTOpenVINO.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기