用語集

推論レイテンシ

低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。

推論レイテンシとは、トレーニング済みの機械学習（ML）モデルが入力を受信し、対応する出力または予測を返すまでにかかる時間です。ミリ秒（ms）単位で測定され、人工知能（AI）の分野、特に即時のフィードバックを必要とするアプリケーションにとって、重要なパフォーマンス指標です。低レイテンシは、動的な実世界の環境で動作できる、応答性が高く効果的なAIシステムを構築するために不可欠です。

推論レイテンシが重要な理由

推論の低遅延性は、有用であるためには厳密な時間枠内で予測を提供する必要があるリアルタイム推論を可能にするための鍵となります。多くの場合、わずか数ミリ秒の遅延でも、アプリケーションが非効率になったり、安全でなくなったりする可能性があります。たとえば、自動運転車は衝突を回避するために歩行者や障害物を即座に識別する必要があり、インタラクティブなAIアシスタントは自然な会話の流れを維持するためにユーザーのクエリに迅速に応答する必要があります。低遅延性を実現することはモデルのデプロイにおける中心的な課題であり、ユーザーエクスペリエンスとアプリケーションの実現可能性に直接影響します。

実際のアプリケーション

推論レイテンシは、多くのコンピュータビジョンアプリケーションの成功を左右する要因です。次に2つの例を示します。

自動運転: 自動車産業では、自動運転車の物体検出システムは、カメラやセンサーからのデータを最小限の遅延で処理する必要があります。低レイテンシにより、車両は道路に足を踏み入れた歩行者を検出し、間に合うようにブレーキをかけることができます。これは、1ミリ秒が重要な重要な安全機能です。
医療診断: ヘルスケアでは、AI モデルは医療画像を分析して疾患を特定します。Ultralytics YOLO11 などのモデルが医用画像における腫瘍検出に使用される場合、低い推論遅延により、放射線科医は分析結果をほぼ瞬時に受け取ることができます。この迅速なフィードバックループは診断プロセスを加速し、患者の治療に関する意思決定を迅速化します。

推論レイテンシに影響を与える要因

モデルが推論を実行できる速度に影響を与える要因はいくつかあります。

モデルの複雑さ: より大きく、より複雑なニューラルネットワーク（NN）は、より多くの計算を必要とし、レイテンシが高くなります。バックボーンから検出ヘッドまで、アーキテクチャの選択は重要な役割を果たします。これらのトレードオフを確認するために、YOLO11とYOLOv10のような異なるモデルを比較できます。
ハードウェア：ハードウェアの処理能力は非常に重要です。GPU（Graphics Processing Units）、TPU（Tensor Processing Units）、またはエッジ上の専用AIアクセラレータ（NVIDIA JetsonやGoogle Coral Edge TPUsなど）のような特殊なハードウェアは、標準的なCPU（Central Processing Units）と比較して、レイテンシを大幅に削減できます。
ソフトウェアの最適化: NVIDIA TensorRTやIntelのOpenVINOなどの最適化された推論エンジンを使用すると、パフォーマンスを大幅に向上させることができます。PyTorchやTensorFlowなどのフレームワークも、最適化ツールを提供しています。ONNXなどの効率的な形式にモデルをエクスポートすると、さまざまなエンジンへのデプロイが容易になります。
バッチサイズ: 複数の入力を一度に処理する（バッチ処理）ことで全体的なスループットは向上しますが、個々の推論におけるレイテンシが増加することがよくあります。リアルタイムアプリケーションでは通常、バッチサイズは1で使用されます。
モデル最適化手法: モデル量子化（数値精度を下げる）やモデルプルーニング（冗長なパラメータを削除する）などの手法は、モデルサイズと計算負荷を軽減し、レイテンシを直接的に削減します。これらは、より広範なモデル最適化戦略の重要な要素です。

推論レイテンシとスループット

推論レイテンシとスループットは、一緒に議論されることが多いですが、パフォーマンスの異なる側面を測定します。

推論レイテンシは、単一の予測の速度（たとえば、1つの画像が処理される速度）を測定します。これは、即時応答を必要とするアプリケーションの主要な指標です。
スループットは、一定期間に完了した推論の総数（例：1秒あたりのフレーム数）を測定します。これは、全体的な処理能力が主な関心事であるバッチ処理システムにより関連性があります。

一方を最適化すると、他方に悪影響を与える可能性があります。たとえば、バッチサイズを大きくすると、通常はスループットが向上しますが、そのバッチ内の個々の入力に対する結果を得るまでの時間が長くなり、レイテンシが悪化します。このレイテンシとスループットのトレードオフを理解することは、特定の運用要件を満たすAIシステムを設計する上で基本となります。

推論レイテンシの管理は、モデルの精度、計算コスト、および応答時間の間のバランスを取ることです。最終的な目標は、アプリケーションのパフォーマンスニーズを満たすモデルとデプロイ戦略を選択することであり、このプロセスはUltralytics HUBのようなプラットフォームを使用して管理できます。

推論レイテンシ

Ultralytics YOLOモデルをトレーニングして、業界全体のワークフローを効率化

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOでAIモデルを数秒でトレーニング

推論レイテンシが重要な理由

実際のアプリケーション

推論レイテンシに影響を与える要因

推論レイテンシとスループット

このカテゴリの関連記事

ビットから量子ビットへ：量子最適化がAIをどう変えるか

初心者のためのAIモデルのトレーニング方法クイックガイド

洞察に満ちたドバイから：GDG MENA-Tサミット2025の要点

Ultralyticsコミュニティに参加しませんか？