用語集

推論レイテンシー

低推論レイテンシーでAIパフォーマンスを最適化。リアルタイム応答を強化するための重要な要因、実際の応用例、テクニックを学びます。

推論レイテンシとは、学習済みの機械学習(ML)モデルが入力を受け取り、対応する出力または予測を返すまでにかかる時間のことです。ミリ秒(ms)単位で測定され、人工知能(AI)の分野、特に即時のフィードバックを必要とするアプリケーションでは重要なパフォーマンス指標となる。低レイテンシは、動的な実環境で動作する応答性の高い効果的なAIシステムを構築するために不可欠です。

推論遅延が重要な理由

低い推論レイテンシは、リアルタイム推論を可能にする鍵であり、予測が有用であるためには厳しい時間枠内で配信されなければならない。多くのシナリオでは、数ミリ秒の遅延がアプリケーションを非効率または危険にさらす可能性がある。例えば、自動運転車は衝突を避けるために歩行者や障害物を瞬時に識別する必要があり、対話型AIアシスタントは自然な会話の流れを維持するためにユーザーからの問い合わせに素早く応答する必要があります。低遅延を実現することは、モデル展開における中心的な課題であり、ユーザーエクスペリエンスとアプリケーションの実現可能性に直接影響します。

実世界での応用

推論レイテンシは、多くのコンピュータビジョンアプリケーションの成功の決め手となる。以下に2つの例を挙げます:

  1. 自律走行自動車業界では、自律走行車の物体検知システムは、カメラやセンサーからのデータを最小限の遅延で処理する必要があります。遅延が少ないことで、車両は歩行者が道路に踏み出したことを検知し、時間内にブレーキをかけることができます。
  2. 医療診断ヘルスケアでは、AIモデルが医療画像を分析して病気を特定する。Ultralytics YOLO11のようなモデルが医療画像の腫瘍検出に使用される場合、推論レイテンシーが低いため、放射線技師はほぼ瞬時に分析結果を受け取ることができます。この迅速なフィードバックループが診断プロセスを加速し、患者への迅速な治療決定につながります。

推論遅延に影響を与える要因

モデルが推論を実行する速さには、いくつかの要因が影響する:

推論レイテンシーとスループット

よく一緒に議論されるが、推論レイテンシとスループットは性能の異なる側面を測定する。

  • 推論レイテンシは、1つの予測の速度(例えば、1つの画像が処理される速度)を測定します。即座の応答が必要なアプリケーションの主要な指標です。
  • スループットは、ある期間(例えば1秒あたりのフレーム数)に完了した推論の総数を測定する。これは、全体的な処理能力が主な関心事であるバッチ処理システムにより関連性が高い。

一方を最適化すると、他方に悪影響を及ぼす可能性がある。例えば、バッチサイズを大きくすると、一般的にスループットは向上するが、そのバッチ内のどの入力に対しても結果を得るのにかかる時間が長くなり、待ち時間が悪化する。このレイテンシ対スループットのトレードオフを理解することは、特定の運用要件を満たすAIシステムを設計するための基本である。

推論のレイテンシを管理することは、モデルの精度、計算コスト、応答時間のバランスを取ることです。最終的な目標は、アプリケーションのパフォーマンスニーズを満たすモデルと展開戦略を選択することであり、このプロセスはUltralytics HUBのようなプラットフォームを使って管理することができます。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク