低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。
推論レイテンシとは、機械学習(ML)モデルが画像やテキストプロンプトなどの入力を受け取ってから、対応する出力または予測を生成するまでの時間遅延を指す。人工知能(AI)の文脈では、この指標は通常ミリ秒(ms)単位で測定され、システムの応答性を示す重要な指標となる。コンピュータビジョンアプリケーションを開発する開発者にとって、特に携帯電話や組み込みデバイスなどのリソース制約環境へモデルをデプロイする場合、遅延を理解し最小化することは、滑らかでインタラクティブなユーザー体験を創出するために不可欠である。
推論レイテンシの重要性は、具体的なユースケースに大きく依存する。夜間サーバーレポートの分析のようなバッチ処理タスクでは数秒の遅延が許容される場合もあるが、対話型アプリケーションでは往々にして受け入れられない。リアルタイム推論においては、システムがデータを処理し即座に反応しなければならないため、低レイテンシがその基盤となる。
レイテンシの低減は、AIエージェントが人間と自然にやり取りできること、および自動化システムが安全に動作することを保証する。高いレイテンシは「反応の遅い」インターフェース、ユーザー離脱率の悪化、あるいは安全上重要なシナリオでは危険な運用障害を引き起こす可能性がある。エンジニアはしばしば、精度を向上させ得るモデルの複雑さと実行速度とのトレードオフを調整しなければならない。
単一の推論パスに必要な総時間には、いくつかの技術的要素が寄与します:
推論の遅延が及ぼす影響は、速度が絶対条件となる実践的な事例を通じて最もよく示される。
ベンチマークモードを使用すれば、Ultralytics 推論速度を簡単に測定できます。これにより、特定のハードウェア制約に最適なモデルサイズを選択するのに役立ちます。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
レイテンシとスループットは、モデル展開において関連するものの異なる概念であるため、区別することが重要です。
一方を最適化すると、もう一方を犠牲にすることが多い。例えば、 エッジAIアプリケーションは通常、即時フィードバックを確保するため レイテンシを優先する一方、クラウドベースのデータマイニングタスクは 大規模なデータセットを効率的に処理するためスループットを優先する場合がある。
Developers employ various strategies to minimize latency. Exporting models to optimized formats like ONNX or OpenVINO can yield significant speed improvements on standard CPUs. For mobile deployments, converting models to TFLite or CoreML ensures they run efficiently on iOS and Android devices. Furthermore, using lightweight architectures like MobileNet or the latest Ultralytics YOLO26 ensures that the foundational model is efficient by design. Users can also leverage the Ultralytics Platform to seamlessly deploy models to these optimized formats without complex manual configuration.