即時AI予測のためのリアルタイム推論の能力を探りましょう。Ultralytics YOLO26がエッジデバイスとロボティクス向けに低遅延の結果をどのように提供するかを学びましょう。
リアルタイム推論とは、学習済みの機械学習 (ML)モデルがライブ入力データを受け入れ、ほぼ瞬時に予測を生成するプロセスを指します。データが後でまとめて収集および分析されるオフライン処理とは異なり、リアルタイム推論はオンザフライで発生し、システムが高速かつ機敏に環境に反応できるようにします。この機能は、現代の人工知能 (AI)アプリケーションの心臓部であり、デバイスがミリ秒単位でデータを認識、解釈、操作することを可能にします。
リアルタイムパフォーマンスを評価するための主要なメトリクスは、inference latencyです。これは、ビデオカメラからのフレームのようにデータがモデルに入力された瞬間から、モデルがバウンディングボックスや分類ラベルなどの出力を生成する瞬間までの時間遅延を測定します。アプリケーションが「リアルタイム」と見なされるためには、入力データストリームの速度に合わせるのに十分なほどレイテンシが低い必要があります。
例えば、30フレーム/秒 (FPS) で実行されるビデオ理解タスクでは、システムは各フレームを処理するために約33ミリ秒という厳格な時間予算を持っています。推論に時間がかかると、システムに遅延が発生し、フレームのドロップや応答の遅延につながる可能性があります。これを達成するには、多くの場合、GPUやEdge AIデバイス(NVIDIA Jetsonなど)を使用したハードウェアアクセラレーションが必要です。
リアルタイムワークフローをバッチ処理と区別することは有用です。どちらも予測生成を伴いますが、その目的とアーキテクチャは大きく異なります。
一瞬の意思決定を行う能力は、動的な環境での自動化を可能にすることで、さまざまな業界を変革しました。
リアルタイムアプリケーション向けにモデルをデプロイするには、多くの場合、ターゲットハードウェアで効率的に実行されるように最適化が必要です。モデル量子化などの手法は、モデルの重みの精度を削減(例:float32からint8へ)し、メモリ使用量を減らし、精度への影響を最小限に抑えながら推論速度を向上させます。
開発者は、このプロセスを効率化するためにUltralytics Platformを利用できます。このプラットフォームはトレーニングを簡素化し、ユーザーがモデルをNVIDIA GPU向けのTensorRT、Intel CPU向けのOpenVINO、またはモバイルデプロイメント向けのTFLiteといった最適化された形式にエクスポートすることを可能にします。
以下のpythonスニペットは、ウェブカメラフィードでリアルタイム推論を実行する方法を示しています。
ultralytics ライブラリ。これは、 YOLO26 Nanoモデルは、エッジデバイスでの高速性能のために特別に設計されています。
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")

未来の機械学習で、新たな一歩を踏み出しましょう。