低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。
推論レイテンシとは、トレーニング済みの機械学習(ML)モデルが入力を受信し、対応する出力または予測を返すまでにかかる時間です。ミリ秒(ms)単位で測定され、人工知能(AI)の分野、特に即時のフィードバックを必要とするアプリケーションにとって、重要なパフォーマンス指標です。低レイテンシは、動的な実世界の環境で動作できる、応答性が高く効果的なAIシステムを構築するために不可欠です。
推論の低遅延性は、有用であるためには厳密な時間枠内で予測を提供する必要があるリアルタイム推論を可能にするための鍵となります。多くの場合、わずか数ミリ秒の遅延でも、アプリケーションが非効率になったり、安全でなくなったりする可能性があります。たとえば、自動運転車は衝突を回避するために歩行者や障害物を即座に識別する必要があり、インタラクティブなAIアシスタントは自然な会話の流れを維持するためにユーザーのクエリに迅速に応答する必要があります。低遅延性を実現することはモデルのデプロイにおける中心的な課題であり、ユーザーエクスペリエンスとアプリケーションの実現可能性に直接影響します。
推論レイテンシは、多くのコンピュータビジョンアプリケーションの成功を左右する要因です。次に2つの例を示します。
モデルが推論を実行できる速度に影響を与える要因はいくつかあります。
推論レイテンシとスループットは、一緒に議論されることが多いですが、パフォーマンスの異なる側面を測定します。
一方を最適化すると、他方に悪影響を与える可能性があります。たとえば、バッチサイズを大きくすると、通常はスループットが向上しますが、そのバッチ内の個々の入力に対する結果を得るまでの時間が長くなり、レイテンシが悪化します。このレイテンシとスループットのトレードオフを理解することは、特定の運用要件を満たすAIシステムを設計する上で基本となります。
推論レイテンシの管理は、モデルの精度、計算コスト、および応答時間の間のバランスを取ることです。最終的な目標は、アプリケーションのパフォーマンスニーズを満たすモデルとデプロイ戦略を選択することであり、このプロセスはUltralytics HUBのようなプラットフォームを使用して管理できます。