Yolo 深圳
深セン
今すぐ参加
用語集

推論レイテンシ

低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。

推論レイテンシとは、機械学習(ML)モデルが入力を受け取るまでの経過時間のことである。 機械学習(ML)モデルが入力を受け取り に対応する出力を生成するまでの時間である。一般的にミリ秒(ms)単位で測定されるこの指標は、次のような決定的な要因となる。 人工知能(AI)システムの 人工知能(AI)システムの応答性を決定付ける要素である。 開発者やエンジニアにとって コンピュータ・ビジョン(CV)プロジェクトに携わる開発者やエンジニアにとって 待ち時間を最小化することは、精度を最大化することと同じくらい重要です、 特に、人間や物理的な機械と相互作用するアプリケーションを展開する場合です。レイテンシが高いと 一方、低遅延はシームレスなユーザーエクスペリエンスを生み出し、即時の意思決定を可能にします。 現代の インテリジェント・システムの基本概念です。

低遅延の重要性

モデル展開の領域では、システムがデータを処理する速度が、特定のタスクに対する実現可能性を左右する。 システムがデータを処理する速度は、特定のタスクに対する実行可能性を決定する。低い推論レイテンシは、リアルタイム推論の基礎である。 リアルタイム推論の基礎となる。 リアルタイム推論の基礎となるものである。例えば、数百ミリ秒の遅延は 数百ミリ秒の遅延は しかし、セーフティ・クリティカルなシステムにとっては致命的となりうる。具体的な 開発サイクルの早い段階でプロジェクトのレイテンシ要件を理解することで、チームは適切なモデル・アーキテクチャを選択することができます。 これにより、チームは信頼性を確保するために適切なモデル・アーキテクチャとハードウェア構成を選択することができます。

遅延に影響を与える主な要因

1回の推論に要する時間には、いくつかの変数が寄与している:

  • モデル建築:ニューラルネットワーク(NN)の構造設計は ニューラルネットワーク(NN)の構造設計は、その速度に大きく影響する。 速度に大きく影響する。大きな 変圧器のような多くの層を持つディープ・モデルは、軽量な 軽量な コンボリューショナル・ニューラル・ネットワーク(CNN)。以下のようなアーキテクチャは YOLO11のようなアーキテクチャは 最適化されている。
  • ハードウェア・アクセラレーション:プロセッシング・ユニットの選択は極めて重要である。標準的な CPUは一般的なタスクをうまく処理するが、GPU(グラフィック・プロセッシング・ユニット)や GPU (グラフィックス・プロセッシング・ユニット)や TPU (Tensor 処理ユニット)のような特殊なハードウェアは AIモデルが必要とする行列演算を並列化し、計算時間を大幅に短縮するように設計されています。 NVIDIA CUDAテクノロジーは この高速化を促進するソフトウェアの一般的な例である。
  • 入力解像度:より大きな画像やビデオフレームを処理するには、より多くの計算リソースが必要です。 入力サイズを小さくすれば(例えば640pから320pへ)、レイテンシを減らすことができる。 EfficientNetの研究では、このトレードオフが検討されています。 EfficientNetの研究で検討されている。
  • モデルの最適化:次のようなテクニック モデルの量子化 32ビットの浮動小数点から8ビットの整数に重みを変換する。 冗長な計算を削除します。ツール ONNX Runtimeのようなツールは、ターゲットハードウェアのレイテンシを下げるために特別に構築されています。

実際のアプリケーション

推論レイテンシの実用的な影響は、スピードが譲れない具体的なユースケースを通して理解するのが一番だ。

  1. 自律走行:自動車における 車載用AIでは、車両は常に周囲を認識しなければならない。 継続的に周囲の状況を把握する必要がある。例えば 歩行者を検知する物体検知システムは カメラ映像を処理し、ミリ秒単位でブレーキシステムを作動させなければならない。ここでの過剰な待ち時間 制動距離が長くなり、安全性が損なわれる。自律走行車の 自律走行車の遅延に関する研究は、わずかな遅延でさえ 些細な遅延でも危険な状況につながることを強調している。
  2. 産業用ロボット製造業における 製造業におけるAI ピック・アンド・プレイス・ロボットは、高速で移動するベルトコンベア上のアイテムを見つけるために、ビジョン・システムに依存している。推論 推論待ち時間がロボットの手の届く範囲に物体がある時間を超えると、システムは失敗する。エッジAI エッジAIソリューションを導入することで、データがデバイス上でローカルに処理され、ネットワーク遅延がなくなる。 デバイス上で処理されるため、クラウド・コンピューティングに伴うネットワーク遅延が発生しない。 クラウド・コンピューティング

推論レイテンシとスループット

レイテンシー」と「スループット」は、しばしば反比例の関係にあるため、区別することが重要です。 最適化の目標です。

  • 推論レイテンシは、1回の予測にかかる時間に焦点を当てる。これは のようなシングルユーザーの対話型アプリケーションの主要な指標である。 バーチャルアシスタント自律型ロボットのようなシングルユーザーの対話型アプリケーションの主な指標です。
  • スループットは、システムが一定期間(例えば、1秒あたりの画像)に処理できる予測数を測定する。 秒)。高いスループットは、通常 複数の入力を同時に処理するバッチサイズ を同時に処理する。しかし、バッチ処理はしばしば、キューで待機している個々のアイテムの待ち時間を増加させる。

この レイテンシーとスループットのトレードオフ は、開発者がデプロイ環境の特定のニーズに従って推論パイプラインを調整することを必要とする。

Ultralyticsレイテンシーの測定

内蔵のベンチマークモードを使用して、Ultralytics モデルのパフォーマンスを評価できます。このツールは のようなさまざまな形式にわたる推論速度に関する詳細な指標を提供します。 ONNXまたは TorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

生産の最適化

可能な限り低いレイテンシーを達成するために、開発者は多くの場合、そのハードウェアに適した推論エンジンを採用する。 推論エンジンを採用することが多い。例えば を使用してNVIDIA Jetsonデバイス上にモデルをデプロイする。 TensorRT 最適化を使ってNVIDIA Jetsonデバイス上にモデルを展開すると 生の PyTorchコードを実行するよりも大幅に高速化できます。同様に Intel OpenVINOを利用することで 標準的なCPU アーキテクチャー上でパフォーマンスを加速することができる。これらのツールは、計算グラフを最適化し、レイヤーをマージし、標準的なトレーニングフレームワークよりも効率的にメモリを管理する。 標準的なトレーニングフレームワークよりも効率的です。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加