Yolo 深圳
深セン
今すぐ参加
用語集

推論レイテンシ

低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。

推論レイテンシとは、機械学習(ML)モデルが画像やテキストプロンプトなどの入力を受け取ってから、対応する出力または予測を生成するまでの時間遅延を指す。人工知能(AI)の文脈では、この指標は通常ミリ秒(ms)単位で測定され、システムの応答性を示す重要な指標となる。コンピュータビジョンアプリケーションを開発する開発者にとって、特に携帯電話や組み込みデバイスなどのリソース制約環境へモデルをデプロイする場合、遅延を理解し最小化することは、滑らかでインタラクティブなユーザー体験を創出するために不可欠である。

推論レイテンシが重要な理由

推論レイテンシの重要性は、具体的なユースケースに大きく依存する。夜間サーバーレポートの分析のようなバッチ処理タスクでは数秒の遅延が許容される場合もあるが、対話型アプリケーションでは往々にして受け入れられない。リアルタイム推論においては、システムがデータを処理し即座に反応しなければならないため、低レイテンシがその基盤となる。

レイテンシの低減は、AIエージェントが人間と自然にやり取りできること、および自動化システムが安全に動作することを保証する。高いレイテンシは「反応の遅い」インターフェース、ユーザー離脱率の悪化、あるいは安全上重要なシナリオでは危険な運用障害を引き起こす可能性がある。エンジニアはしばしば、精度を向上させ得るモデルの複雑さと実行速度とのトレードオフを調整しなければならない。

レイテンシに影響を与える要因

単一の推論パスに必要な総時間には、いくつかの技術的要素が寄与します:

  • モデルアーキテクチャ: ニューラルネットワーク(NN)の設計は主要な要因である。多くの層を持つ深層モデルは、一般的に浅いモデルよりも多くの計算を必要とする。YOLO26のような現代的なアーキテクチャは、最小限の計算オーバーヘッドで高精度を実現するよう特に最適化されている。
  • ハードウェアの性能:プロセッシングユニットの選択は速度に大きく影響する。一方、 CPU は汎用性が高い一方、 GPU グラフィックス処理ユニット)TPU Tensor ユニット)といった 専用ハードウェアは、深層学習の中核となる行列演算を 並列処理するよう設計されており、 大幅に遅延を削減します。
  • 入力サイズ:高解像度4K動画フレームの処理は、標準的な640p画像の処理よりも時間がかかります。開発者はデータ前処理中に、処理速度とdetect 能力のバランスが取れる最適なサイズを見つけるため、入力画像のサイズ変更を頻繁に行います。
  • 最適化技術: モデル量子化(重みを低精度に変換)や モデルプルーニング(不要な接続を削除)といった手法は、 実行速度を向上させる効果的な方法です。 NVIDIA TensorRT などのツールは、特定のハードウェア向けにモデルをさらに最適化できます。

実際のアプリケーション

推論の遅延が及ぼす影響は、速度が絶対条件となる実践的な事例を通じて最もよく示される。

  1. 自動運転: 自動車分野におけるAIでは、自動運転車は歩行者、他の車両、信号機を検知するため周囲環境を継続的に監視しなければならない。物体検知システムに高い遅延が生じると、障害物出現時に車両が間に合わないブレーキ操作を行う可能性がある。 高速道路走行時においてわずか100ミリ秒の遅延でも 数メートルの走行距離に相当するため、低遅延は安全上極めて重要な要件となる。
  2. 高頻度取引:金融機関は予測モデリングを用いて市場動向を分析し、取引を実行する。これらのアルゴリズムは膨大なデータを処理し、マイクロ秒単位で意思決定を行わねばならない。この分野では、低遅延が直接的に競争優位性につながり、競合他社が反応する前に、企業は一瞬の市場機会を捉えることが可能となる。

Pythonによるレイテンシ測定

ベンチマークモードを使用すれば、Ultralytics 推論速度を簡単に測定できます。これにより、特定のハードウェア制約に最適なモデルサイズを選択するのに役立ちます。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

推論レイテンシとスループット

レイテンシとスループットは、モデル展開において関連するものの異なる概念であるため、区別することが重要です。

  • 推論レイテンシは 単一の予測にかかる時間を測定します(例:「この画像の処理に20ミリ秒を要した」)。これは単一ユーザー向けリアルタイムアプリケーションの主要指標です。
  • スループットは、時間経過に伴う予測の量を測定します(例:「システムは毎秒500枚の画像を処理した」)。高いスループットは、多くの入力を同時に処理するバッチサイズを大きくすることで達成されることがよくあります。しかし、バッチ処理は実際には、キューで待機している個々のアイテムのレイテンシを増加させる可能性があります。

一方を最適化すると、もう一方を犠牲にすることが多い。例えば、 エッジAIアプリケーションは通常、即時フィードバックを確保するため レイテンシを優先する一方、クラウドベースのデータマイニングタスクは 大規模なデータセットを効率的に処理するためスループットを優先する場合がある。

最適化戦略

Developers employ various strategies to minimize latency. Exporting models to optimized formats like ONNX or OpenVINO can yield significant speed improvements on standard CPUs. For mobile deployments, converting models to TFLite or CoreML ensures they run efficiently on iOS and Android devices. Furthermore, using lightweight architectures like MobileNet or the latest Ultralytics YOLO26 ensures that the foundational model is efficient by design. Users can also leverage the Ultralytics Platform to seamlessly deploy models to these optimized formats without complex manual configuration.

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加