YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

推論レイテンシ

低い推論レイテンシーでAIパフォーマンスを最適化します。リアルタイム応答を向上させるための主要な要素、実際のアプリケーション、およびテクニックについて学びます。

推論レイテンシとは、トレーニング済みの機械学習(ML)モデルが入力を受信し、対応する出力または予測を返すまでにかかる時間です。ミリ秒(ms)単位で測定され、人工知能(AI)の分野、特に即時のフィードバックを必要とするアプリケーションにとって、重要なパフォーマンス指標です。低レイテンシは、動的な実世界の環境で動作できる、応答性が高く効果的なAIシステムを構築するために不可欠です。

推論レイテンシが重要な理由

推論の低遅延性は、有用であるためには厳密な時間枠内で予測を提供する必要があるリアルタイム推論を可能にするための鍵となります。多くの場合、わずか数ミリ秒の遅延でも、アプリケーションが非効率になったり、安全でなくなったりする可能性があります。たとえば、自動運転車は衝突を回避するために歩行者や障害物を即座に識別する必要があり、インタラクティブなAIアシスタントは自然な会話の流れを維持するためにユーザーのクエリに迅速に応答する必要があります。低遅延性を実現することはモデルのデプロイにおける中心的な課題であり、ユーザーエクスペリエンスとアプリケーションの実現可能性に直接影響します。

実際のアプリケーション

推論レイテンシは、多くのコンピュータビジョンアプリケーションの成功を左右する要因です。次に2つの例を示します。

  1. 自動運転: 自動車産業では、自動運転車の物体検出システムは、カメラやセンサーからのデータを最小限の遅延で処理する必要があります。低レイテンシにより、車両は道路に足を踏み入れた歩行者を検出し、間に合うようにブレーキをかけることができます。これは、1ミリ秒が重要な重要な安全機能です。
  2. 医療診断: ヘルスケア では、AI モデルは医療画像を分析して疾患を特定します。Ultralytics YOLO11 などのモデルが 医用画像における腫瘍検出 に使用される場合、低い推論遅延により、放射線科医は分析結果をほぼ瞬時に受け取ることができます。この迅速なフィードバックループは診断プロセスを加速し、患者の治療に関する意思決定を迅速化します。

推論レイテンシに影響を与える要因

モデルが推論を実行できる速度に影響を与える要因はいくつかあります。

推論レイテンシとスループット

推論レイテンシとスループットは、一緒に議論されることが多いですが、パフォーマンスの異なる側面を測定します。

  • 推論レイテンシは、単一の予測の速度(たとえば、1つの画像が処理される速度)を測定します。これは、即時応答を必要とするアプリケーションの主要な指標です。
  • スループットは、一定期間に完了した推論の総数(例:1秒あたりのフレーム数)を測定します。これは、全体的な処理能力が主な関心事であるバッチ処理システムにより関連性があります。

一方を最適化すると、他方に悪影響を与える可能性があります。たとえば、バッチサイズを大きくすると、通常はスループットが向上しますが、そのバッチ内の個々の入力に対する結果を得るまでの時間が長くなり、レイテンシが悪化します。このレイテンシとスループットのトレードオフを理解することは、特定の運用要件を満たすAIシステムを設計する上で基本となります。

推論レイテンシの管理は、モデルの精度、計算コスト、および応答時間の間のバランスを取ることです。最終的な目標は、アプリケーションのパフォーマンスニーズを満たすモデルとデプロイ戦略を選択することであり、このプロセスはUltralytics HUBのようなプラットフォームを使用して管理できます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました