YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

量子化対応学習(QAT)

量子化対応トレーニング(QAT)を使用してエッジデバイス向けにAIモデルを最適化し、リソースが限られた環境で高い精度と効率を保証します。

Quantization-Aware Training(QAT)は、高度なモデル最適化手法であり、数値精度を下げてニューラルネットワーク(NN)をデプロイできるように準備します。32ビット浮動小数点数(FP32)を使用する標準的なトレーニングとは異なり、QATはトレーニングまたは微調整プロセス中に8ビット整数(INT8)計算の影響をシミュレートします。モデルに推論中に発生する量子化エラーを「認識」させることで、QATはモデルが重みを調整して、精度の潜在的な低下を最小限に抑えることができます。これにより、コンパクトで効率的なモデルが実現し、高いパフォーマンスを維持できるため、リソースが限られたハードウェアへのデプロイに最適です。

量子化対応学習の仕組み

QAT(Quantization Aware Training)のプロセスは通常、事前学習済みのFP32モデルから始まります。モデルのアーキテクチャに「偽の」量子化ノードが挿入され、浮動小数点値を低精度整数に変換し、元に戻す効果を模倣します。その後、モデルはトレーニングデータセットで再トレーニングされます。この再トレーニング段階で、モデルは標準的なバックプロパゲーションを通じて、量子化に伴う情報損失に適応することを学習します。これにより、モデルは精度低下に対する感度が低い、よりロバストな重みのセットを見つけることができます。深層学習フレームワークであるPyTorchTensorFlowは、QATワークフローを実装するための堅牢なツールとAPIを提供しています。

QAT対Post-Training Quantization

QATは、一般的なモデル量子化手法であるPost-Training Quantization(PTQ)としばしば比較されます。主な違いは、量子化を適用するタイミングにあります。

  • Post-Training Quantization (PTQ): この手法は、モデルが完全にトレーニングされたに適用されます。これは、再トレーニングや元のトレーニングデータへのアクセスを必要としない、よりシンプルで高速なプロセスです。ただし、特に機密性の高いモデルの場合、モデルの精度が大幅に低下することがあります。
  • 量子化対応トレーニング(QAT): この手法は、量子化をトレーニングループに統合します。計算負荷が高く、トレーニングデータへのアクセスが必要ですが、QATはPTQと比較して、最終的な量子化モデルの精度がほぼ常に向上します。パフォーマンスを最大化することが重要な場合に推奨される方法です。

QATの実世界での応用

量子化対応学習は、効率が重要なリソース制約のある環境に高度なAIモデルを実装するために不可欠です。

  1. オンデバイスのコンピュータビジョン: リアルタイムの物体検出を拡張現実アプリで実現したり、写真管理ツール内で画像分類を行ったりするために、Ultralytics YOLOv8のような複雑なコンピュータビジョンモデルをスマートフォン上で直接実行します。QATにより、これらのモデルはバッテリー消費や遅延を大幅に抑えながら効率的に動作します。
  2. 自動車およびロボット工学におけるエッジAI:自動運転車における歩行者検出や車線維持支援、またはロボット工学における物体操作などのタスクのためにモデルを展開します。QATを使用すると、これらのモデルをGoogle Edge TPUNVIDIA Jetsonなどの特殊なハードウェア上で実行できるようになり、重要なリアルタイムの意思決定のために低い推論レイテンシを保証します。これは、セキュリティアラームシステム駐車場管理などのアプリケーションに不可欠です。

他の最適化手法との関係

QATは、モデルデプロイメントの最適化のためのいくつかの手法の1つであり、多くの場合、最大の効率を得るために他の手法と組み合わせて使用​​されます。

  • モデルの枝刈り: ネットワークから冗長な、または重要でない接続を削除することを含みます。モデルは、最初に枝刈りを行ってからQATを実行することで、さらに高い圧縮率を達成できます。
  • Knowledge Distillation(知識蒸留): より大規模な「教師」モデルを模倣するように、より小規模な「生徒」モデルを訓練します。結果として得られる生徒モデルは、QATを使用してさらに最適化できます。

Ultralyticsは、ONNXTensorRTTFLiteのようなさまざまな形式へのモデルのエクスポートをサポートしており、これらはQATワークフローと互換性があり、IntelNVIDIAのような企業からの多様なハードウェア全体での効率的なデプロイを可能にします。Ultralytics HUBのようなプラットフォームを使用して、QAT最適化されたモデルを管理およびデプロイできます。QAT後の関連するメトリクスを使用してモデルのパフォーマンスを評価することは、精度要件が満たされていることを確認するために不可欠です。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました