모델 양자화로 AI 성능을 최적화하세요. 크기를 줄이고, 속도를 높이고, 실제 배포를 위한 에너지 효율성을 개선하세요.
모델 정량화는 머신러닝의 혁신적인 기술로 머신 러닝의 혁신적인 기술입니다. 계산 및 메모리 비용을 줄이기 위해 계산 및 메모리 비용을 줄이기 위해 고안된 혁신적인 기술입니다. 모델의 매개변수(특히 가중치와 활성화)를 고정밀 부동 소수점 숫자(일반적으로 32비트)로 변환함으로써 매개변수(특히 가중치 및 활성화)를 고정밀 부동 소수점 숫자(일반적으로 32비트, 즉 FP32)에서 8비트 정수(INT8)와 같은 저정밀 형식으로 변환함으로써 개발자는 모델의 파일 크기를 크게 줄일 수 있습니다. 모델의 파일 크기를 크게 줄일 수 있습니다. 이 프로세스는 다음과 같은 기능을 구현하는 데 필수적입니다. 제한된 리소스로 하드웨어에 효율적인 모델 배포 스마트폰부터 산업용 센서에 이르기까지 모든 기기에서 정교한 AI 기능을 원활하게 실행할 수 있도록 지원합니다. 산업용 센서까지.
양자화의 핵심 메커니즘은 넓은 범위의 연속형 값을 더 작은 불연속형 값 집합에 매핑하는 것입니다. 값으로 매핑하는 것입니다. 일반적인 딥러닝 모델에서 매개변수는 32비트 부동소수점 숫자로 저장되어 학습 단계에서 높은 정확도를 유지합니다. 높은 정확도를 유지하기 위해 매개변수를 32비트 부동 소수점으로 저장합니다. 하지만 추론 단계에서는 이러한 수준의 정밀도가 불필요한 경우가 많습니다.
양자화는 이러한 값을 압축하여 모델 가중치를 가져오는 데 필요한 메모리 대역폭을 줄이고 모델 가중치를 가져오는 데 필요한 메모리 대역폭을 줄이고 수학적 연산을 가속화합니다. CPU와 GPU와 같은 전문 가속기를 포함한 최신 하드웨어에는 종종 부동 소수점보다 더 빠르고 에너지 효율적인 정수 연산을 위한 전용 명령어 세트가 있습니다. 보다 더 빠르고 에너지 효율적입니다. 이러한 최적화를 통해 추론 지연 시간을 최소화하여 실시간 애플리케이션에서 더 빠른 사용자 실시간 애플리케이션에서 더 빠른 사용자 경험을 제공합니다.
이 최적화를 적용하는 데는 두 가지 기본 접근 방식이 있으며, 각각 개발 단계에 따라 다릅니다. 수명 주기:
정량화는 엣지 AI의 초석으로, 클라우드 연결에 의존하지 않고 디바이스에서 복잡한 복잡한 작업을 클라우드 연결에 의존하지 않고 디바이스에서 로컬로 수행할 수 있습니다.
Ultralytics 프레임워크는 모델을 정량화 친화적인 형식으로 내보내는 프로세스를 간소화합니다. 다음 예제는 YOLO11 모델을 TFLite 로 내보내는 방법을 보여줍니다. 이 프로세스는 지정된 데이터를 사용하여 자동으로 캘리브레이션을 처리합니다.
from ultralytics import YOLO
# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")
# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")
정량화를 다른 모델 최적화 전략과 구별하는 것이 도움이 됩니다. 모델 최적화 전략과 구별하는 것이 도움이 됩니다, 종종 함께 사용되지만 작동 방식이 다르기 때문입니다:
하드웨어 가속기가 더욱 전문화됨에 따라 양자화의 중요성이 계속 커지고 있습니다. 미래의 Ultralytics 연구(예: 곧 발표될 YOLO26)의 목표는 공격적인 양자화에 기본적으로 강력한 아키텍처를 설계하여 공격적인 양자화에 기본적으로 견고한 아키텍처를 설계하여 효율성을 더욱 높이는 것을 목표로 합니다. 고성능 컴퓨터 비전 을 초소형 엣지 디바이스에서도 계속 이용할 수 있도록 하는 것을 목표로 합니다.
보다 폭넓은 호환성을 위해 다음과 같은 상호 운용 가능한 표준을 사용하여 정량화된 모델을 배포하는 경우가 많습니다. ONNX 또는 최적화된 추론 엔진과 같은 TensorRT 및 OpenVINO.

