低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。
推論レイテンシとは、機械学習(ML)モデルが入力を受け取るまでの経過時間のことである。 機械学習(ML)モデルが入力を受け取り に対応する出力を生成するまでの時間である。一般的にミリ秒(ms)単位で測定されるこの指標は、次のような決定的な要因となる。 人工知能(AI)システムの 人工知能(AI)システムの応答性を決定付ける要素である。 開発者やエンジニアにとって コンピュータ・ビジョン(CV)プロジェクトに携わる開発者やエンジニアにとって 待ち時間を最小化することは、精度を最大化することと同じくらい重要です、 特に、人間や物理的な機械と相互作用するアプリケーションを展開する場合です。レイテンシが高いと 一方、低遅延はシームレスなユーザーエクスペリエンスを生み出し、即時の意思決定を可能にします。 現代の インテリジェント・システムの基本概念です。
モデル展開の領域では、システムがデータを処理する速度が、特定のタスクに対する実現可能性を左右する。 システムがデータを処理する速度は、特定のタスクに対する実行可能性を決定する。低い推論レイテンシは、リアルタイム推論の基礎である。 リアルタイム推論の基礎となる。 リアルタイム推論の基礎となるものである。例えば、数百ミリ秒の遅延は 数百ミリ秒の遅延は しかし、セーフティ・クリティカルなシステムにとっては致命的となりうる。具体的な 開発サイクルの早い段階でプロジェクトのレイテンシ要件を理解することで、チームは適切なモデル・アーキテクチャを選択することができます。 これにより、チームは信頼性を確保するために適切なモデル・アーキテクチャとハードウェア構成を選択することができます。
1回の推論に要する時間には、いくつかの変数が寄与している:
推論レイテンシの実用的な影響は、スピードが譲れない具体的なユースケースを通して理解するのが一番だ。
レイテンシー」と「スループット」は、しばしば反比例の関係にあるため、区別することが重要です。 最適化の目標です。
この レイテンシーとスループットのトレードオフ は、開発者がデプロイ環境の特定のニーズに従って推論パイプラインを調整することを必要とする。
内蔵のベンチマークモードを使用して、Ultralytics モデルのパフォーマンスを評価できます。このツールは のようなさまざまな形式にわたる推論速度に関する詳細な指標を提供します。 ONNXまたは TorchScript.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
可能な限り低いレイテンシーを達成するために、開発者は多くの場合、そのハードウェアに適した推論エンジンを採用する。 推論エンジンを採用することが多い。例えば を使用してNVIDIA Jetsonデバイス上にモデルをデプロイする。 TensorRT 最適化を使ってNVIDIA Jetsonデバイス上にモデルを展開すると 生の PyTorchコードを実行するよりも大幅に高速化できます。同様に Intel OpenVINOを利用することで 標準的なCPU アーキテクチャー上でパフォーマンスを加速することができる。これらのツールは、計算グラフを最適化し、レイヤーをマージし、標準的なトレーニングフレームワークよりも効率的にメモリを管理する。 標準的なトレーニングフレームワークよりも効率的です。


