YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

リアルタイム推論

即時AI予測のためのリアルタイム推論の能力を探りましょう。Ultralytics YOLO26がエッジデバイスとロボティクス向けに低遅延の結果をどのように提供するかを学びましょう。

リアルタイム推論とは、学習済みの機械学習 (ML)モデルがライブ入力データを受け入れ、ほぼ瞬時に予測を生成するプロセスを指します。データが後でまとめて収集および分析されるオフライン処理とは異なり、リアルタイム推論はオンザフライで発生し、システムが高速かつ機敏に環境に反応できるようにします。この機能は、現代の人工知能 (AI)アプリケーションの心臓部であり、デバイスがミリ秒単位でデータを認識、解釈、操作することを可能にします。

低遅延の重要性

リアルタイムパフォーマンスを評価するための主要なメトリクスは、inference latencyです。これは、ビデオカメラからのフレームのようにデータがモデルに入力された瞬間から、モデルがバウンディングボックスや分類ラベルなどの出力を生成する瞬間までの時間遅延を測定します。アプリケーションが「リアルタイム」と見なされるためには、入力データストリームの速度に合わせるのに十分なほどレイテンシが低い必要があります。

例えば、30フレーム/秒 (FPS) で実行されるビデオ理解タスクでは、システムは各フレームを処理するために約33ミリ秒という厳格な時間予算を持っています。推論に時間がかかると、システムに遅延が発生し、フレームのドロップや応答の遅延につながる可能性があります。これを達成するには、多くの場合、GPUEdge AIデバイス(NVIDIA Jetsonなど)を使用したハードウェアアクセラレーションが必要です。

リアルタイム推論とバッチ推論

リアルタイムワークフローをバッチ処理と区別することは有用です。どちらも予測生成を伴いますが、その目的とアーキテクチャは大きく異なります。

  • リアルタイム推論: 低レイテンシを優先します。データポイント(または非常に小さなバッチ)が到着するとすぐに処理します。これは、車が歩行者を即座にdetectして間に合うようにブレーキをかける必要がある自動運転車のようなインタラクティブなアプリケーションに不可欠です。
  • バッチ推論: 高スループットを優先します。大量のデータを収集し、一度にすべて処理します。これは、夜間の在庫レポート生成や履歴ビッグデータの傾向分析など、緊急性の低いタスクに適しています。

実際のアプリケーション

一瞬の意思決定を行う能力は、動的な環境での自動化を可能にすることで、さまざまな業界を変革しました。

  • Smart Manufacturing: 製造業におけるAIでは、コンベアベルトの上に設置されたカメラがリアルタイム推論を使用して自動品質管理を行います。object detectionモデルは、高速で移動する製品の欠陥や異物を瞬時に識別できます。異常が検出された場合、システムはロボットアームを作動させてそのアイテムを即座に除去し、高品質な製品のみが梱包に到達するようにします。
  • 監視とセキュリティ: 最新のセキュリティシステムは、周辺を監視するためにコンピュータービジョンに依存しています。これらのカメラは、単に映像を記録するだけでなく、リアルタイムの人物検出顔認識を実行し、不正アクセスが発生した瞬間にセキュリティ担当者に警告します。
  • ロボット工学: ロボットAIの分野では、ロボットは複雑な物理空間をナビゲートするために姿勢推定を使用します。倉庫ロボットは、障害物や人間の作業員の場所を継続的に推論し、安全かつ効率的に経路を計画する必要があります。

最適化とデプロイ

リアルタイムアプリケーション向けにモデルをデプロイするには、多くの場合、ターゲットハードウェアで効率的に実行されるように最適化が必要です。モデル量子化などの手法は、モデルの重みの精度を削減(例:float32からint8へ)し、メモリ使用量を減らし、精度への影響を最小限に抑えながら推論速度を向上させます。

開発者は、このプロセスを効率化するためにUltralytics Platformを利用できます。このプラットフォームはトレーニングを簡素化し、ユーザーがモデルをNVIDIA GPU向けのTensorRT、Intel CPU向けのOpenVINO、またはモバイルデプロイメント向けのTFLiteといった最適化された形式にエクスポートすることを可能にします。

コード例

以下のpythonスニペットは、ウェブカメラフィードでリアルタイム推論を実行する方法を示しています。 ultralytics ライブラリ。これは、 YOLO26 Nanoモデルは、エッジデバイスでの高速性能のために特別に設計されています。

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)

# Iterate through the generator to process frames as they arrive
for result in results:
    # Example: Print the number of objects detected in the current frame
    print(f"Detected {len(result.boxes)} objects")

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。