モデル量子化でAIのパフォーマンスを最適化します。サイズを縮小し、速度を向上させ、エネルギー効率を高めて、実世界での展開を改善します。
モデル量子化は、機械学習における革新的なテクニックである。 機械学習における 計算コストとメモリー・コストを削減するために考案された 機械学習における変換技術である。モデルのパラメータ モデルのパラメータ(特に重みと活性度)を、高精度浮動小数点数(通常は32ビット、FP32と呼ばれる)から8ビット整数(INT8)のような低精度フォーマットに変換することで、計算コストを削減する。 FP32)から8ビット整数(INT8)のような低精度フォーマットに変換することで、開発者はモデルのファイルサイズを大幅に縮小することができる。 モデルのファイルサイズを大幅に縮小できる。このプロセスは 限られたリソースのハードウェア上で効率的なモデル展開を可能にし、高度なAI機能を確保するために不可欠です。 このプロセスは、限られたリソースのハードウェア上で効率的なモデル展開を可能にするために不可欠であり、スマートフォンから産業用センサーまで、あらゆるもので高度なAI機能がスムーズに動作することを保証する。 産業用センサーに至るまで、高度なAI機能がスムーズに動作することを保証する。
量子化の核となるメカニズムは、連続的な値の大きな範囲を、離散的な値の小さなセットにマッピングすることである。 値にマッピングすることである。典型的なディープラーニング・モデルでは、パラメータは32ビット浮動小数点数として保存され、学習段階で高い精度を維持する。 として保存される。しかし 推論(モデルが予測を行う段階)では、このレベルの精度が不要になることがよくあります。
量子化によってこれらの値が圧縮され、モデルの重みをフェッチするのに必要なメモリ帯域幅が削減される。 モデルの重みを取得するのに必要なメモリ帯域幅を削減し、数学演算を高速化します。 演算が高速化される。CPUやGPUのような GPUのような特殊なアクセラレーターを含む最新のハードウェアは は、浮動小数点演算よりも高速でエネルギー効率に優れた整数演算専用の命令セットを備えています。 より高速でエネルギー効率に優れています。この最適化は この最適化により、推論の待ち時間を最小限に抑え、リアルタイム・アプリケーションで リアルタイム・アプリケーションでのユーザー・エクスペリエンスが向上します。
この最適化を適用するには、主に2つのアプローチがあり、それぞれ開発ライフサイクルの異なる段階に対応している。 ライフサイクルに対応する:
量子化はエッジAIの基礎であり、クラウド接続に依存することなく、デバイス上でローカルに複雑なタスクを実行することを可能にする。 クラウド接続に依存することなく、デバイス上でローカルに複雑なタスクを実行できるようにする。
Ultralytics フレームワークは、モデルを量子化しやすい形式にエクスポートするプロセスを簡素化します。次の をエクスポートする方法を示します。 YOLO11モデルをTFLite にエクスポートする方法を示しています。このプロセスでは、指定されたデータを使用して較正が自動的に処理されます。
from ultralytics import YOLO
# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")
# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")
量子化を他のモデル最適化戦略と区別することは有益である。 モデル最適化戦略と区別することは有益である、 これらはしばしば併用されるが、動作は異なるからだ:
ハードウェア・アクセラレータがより専門的になるにつれ、量子化の重要性はますます高まっている。今後のUltralytics YOLO26のような将来のUltralytics研究は、積極的な量子化に対してネイティブにロバストなアーキテクチャを設計することで、効率をさらに押し上げることを目指している。 積極的な量子化に対してネイティブにロバストなアーキテクチャを設計することで、効率をさらに押し上げ、高性能なコンピュータ・ビジョンの実現を目指している。 高性能コンピュータビジョン これにより、高性能コンピュータ・ビジョンが最小のエッジ・デバイスでも利用できるようになります。
より広い互換性のために、量子化されたモデルは、次のような相互運用可能な標準を使用して展開されることが多い。 ONNXまたは最適化された推論エンジン 最適化された推論エンジン TensorRTや OpenVINO.


