モデル量子化がエッジAIのためにUltralytics YOLO26をどのように最適化するかを学びましょう。メモリを削減し、レイテンシを低減し、より高速な推論のためにINT8モデルをエクスポートする方法を発見してください。
モデル量子化は、深層学習モデルの実行における計算コストとメモリコストを削減するために使用される、高度な モデル最適化手法です。標準的なトレーニングワークフローでは、ニューラルネットワークは通常、パラメータ(重みとバイアス)および活性化マップを32ビット浮動小数点数(FP32)を使用して保存します。この高精度はトレーニング中の正確な計算を保証しますが、推論にはしばしば不要です。量子化はこれらの値を、16ビット浮動小数点(FP16)や8ビット整数(INT8)などの低精度フォーマットに変換し、 精度を大幅に損なうことなく、モデルサイズを効果的に縮小し、実行速度を加速させます。
量子化の主な推進力は、リソースが限られたハードウェアに強力なAIをデプロイする必要性です。コンピュータービジョンモデル、例えばYOLO26などがより複雑になるにつれて、その計算要件は増加します。量子化は、3つの重要なボトルネックに対処します。
量子化は他の最適化手法とは区別することが重要である。なぜなら、それらはモデルを異なる方法で変更するからである:
量子化は、効率が最重要視される様々な産業において、コンピュータビジョンとAIを可能にします。
Ultralyticsライブラリはエクスポートプロセスを簡素化し、開発者が最先端のYOLO26のようなモデルを量子化された形式に変換することを可能にします。Ultralytics Platformも、これらのデプロイメントをシームレスに管理するためのツールを提供します。
以下の例は、INT8量子化を有効にしてモデルを TFLite にエクスポートする方法を示しています。このプロセスには、モデルがサンプルデータを観察して量子化された値の最適なダイナミックレンジを決定するキャリブレーションステップが含まれます。
from ultralytics import YOLO
# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")
# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")
最適化されたモデルは、 ONNX や、 OpenVINO OpenVINOなどの高性能推論エンジンを用いてデプロイされ、多様なハードウェアエコシステム間で広範な互換性を確保します。

未来の機械学習で、新たな一歩を踏み出しましょう。