低推論レイテンシーでAIパフォーマンスを最適化。リアルタイム応答を強化するための重要な要因、実際の応用例、テクニックを学びます。
推論レイテンシとは、学習済みの機械学習(ML)モデルが入力を受け取り、対応する出力または予測を返すまでにかかる時間のことです。ミリ秒(ms)単位で測定され、人工知能(AI)の分野、特に即時のフィードバックを必要とするアプリケーションでは重要なパフォーマンス指標となる。低レイテンシは、動的な実環境で動作する応答性の高い効果的なAIシステムを構築するために不可欠です。
低い推論レイテンシは、リアルタイム推論を可能にする鍵であり、予測が有用であるためには厳しい時間枠内で配信されなければならない。多くのシナリオでは、数ミリ秒の遅延がアプリケーションを非効率または危険にさらす可能性がある。例えば、自動運転車は衝突を避けるために歩行者や障害物を瞬時に識別する必要があり、対話型AIアシスタントは自然な会話の流れを維持するためにユーザーからの問い合わせに素早く応答する必要があります。低遅延を実現することは、モデル展開における中心的な課題であり、ユーザーエクスペリエンスとアプリケーションの実現可能性に直接影響します。
推論レイテンシは、多くのコンピュータビジョンアプリケーションの成功の決め手となる。以下に2つの例を挙げます:
モデルが推論を実行する速さには、いくつかの要因が影響する:
よく一緒に議論されるが、推論レイテンシとスループットは性能の異なる側面を測定する。
一方を最適化すると、他方に悪影響を及ぼす可能性がある。例えば、バッチサイズを大きくすると、一般的にスループットは向上するが、そのバッチ内のどの入力に対しても結果を得るのにかかる時間が長くなり、待ち時間が悪化する。このレイテンシ対スループットのトレードオフを理解することは、特定の運用要件を満たすAIシステムを設計するための基本である。
推論のレイテンシを管理することは、モデルの精度、計算コスト、応答時間のバランスを取ることです。最終的な目標は、アプリケーションのパフォーマンスニーズを満たすモデルと展開戦略を選択することであり、このプロセスはUltralytics HUBのようなプラットフォームを使って管理することができます。