Real-time Inference
リアルタイム推論の能力を活用して、AIによる即時の予測を実現しましょう。Ultralytics YOLO26がエッジデバイスやロボティクスにおいてどのように低遅延な結果をもたらすかを解説します。
リアルタイム推論とは、学習済みの機械学習(ML)モデルがライブ入力データを受け取り、ほぼ瞬時に予測を生成するプロセスを指します。データが収集され、後でまとめて分析されるオフライン処理とは異なり、リアルタイム推論はオンザフライで行われるため、システムは迅速かつ機敏に環境へ反応できるようになります。この機能は現代の人工知能(AI)アプリケーションの心臓部であり、デバイスがミリ秒単位でデータを認識、解釈し、行動することを可能にします。
Link to this section低遅延の重要性#
リアルタイム性能を評価する主要な指標は推論遅延(インファレンスレイテンシ)です。これは、ビデオカメラからのフレームのようなデータがモデルに入力された瞬間から、モデルがBBoxや分類ラベルなどの出力を生成する瞬間までの時間的遅延を測定するものです。アプリケーションが「リアルタイム」と見なされるためには、その遅延が入力データストリームの速度に追従できるほど低くなければなりません。
For example, in video understanding tasks running at 30 frames per second (FPS), the system has a strict time budget of approximately 33 milliseconds to process each frame. If the inference takes longer, the system introduces lag, potentially leading to dropped frames or delayed responses. achieving this often requires hardware acceleration using GPUs or specialized Edge AI devices like the NVIDIA Jetson.
Link to this sectionリアルタイム推論とバッチ推論の比較#
リアルタイムのワークフローとバッチ処理を区別することは有益です。どちらも予測の生成を伴いますが、その目的とアーキテクチャは大きく異なります。
- リアルタイム推論: 低遅延を優先します。単一のデータポイント(または非常に小さなバッチ)が到着するとすぐに処理します。これは、車両が歩行者を即座に検知してブレーキをかける必要がある自動運転車のようなインタラクティブなアプリケーションにおいて不可欠です。
- バッチ推論: 高スループットを優先します。大量のデータを収集し、一度にすべて処理します。これは、夜間の在庫レポートの生成や過去のビッグデータトレンドの分析など、緊急性の低いタスクに適しています。
Link to this section実社会での応用#
瞬時の判断を下す能力は、動的な環境における自動化を実現し、さまざまな業界を変革してきました。
- スマートマニュファクチャリング: 製造におけるAIでは、コンベアベルトの上に配置されたカメラがリアルタイム推論を使用して自動品質管理を行います。物体検出モデルは、高速で移動する製品内の欠陥や異物を即座に識別できます。異常が検出されると、システムはロボットアームを起動して直ちにそのアイテムを除去し、高品質な商品のみが梱包工程へ届くようにします。
- 監視とセキュリティ: 現代のセキュリティシステムは、コンピュータビジョンを活用して周囲を監視しています。単に映像を記録するだけでなく、これらのカメラはリアルタイムの人物検出や顔認識を実行し、不正アクセスが発生した瞬間に警備担当者へ警告を送ります。
- ロボティクス: ロボティクスにおけるAIの分野では、ロボットは姿勢推定を使用して複雑な物理空間を移動します。倉庫用ロボットは、障害物や作業員の場所を継続的に推論し、安全かつ効率的に経路を計画する必要があります。
Link to this section最適化とデプロイメント#
リアルタイムアプリケーション向けにモデルをデプロイする場合、ターゲットハードウェア上で効率的に動作させるための最適化がしばしば必要となります。モデル量子化のような技術は、モデルの重みの精度を低下させる(例:float32からint8へ)ことで、精度への影響を最小限に抑えつつ、メモリ使用量を減らし、推論速度を向上させます。
開発者はUltralytics Platformを活用して、このプロセスを効率化できます。このプラットフォームはトレーニングを簡素化し、ユーザーがNVIDIA GPU向けのTensorRT、Intel CPU向けのOpenVINO、モバイルデプロイメント向けのTFLiteといった最適化フォーマットにモデルをエクスポートすることを可能にします。
Link to this sectionコード例#
以下のPythonスニペットは、ultralyticsライブラリを使用してウェブカメラの映像でリアルタイム推論を実行する方法を示しています。ここでは、エッジデバイスでの高速パフォーマンス向けに特別に設計されたYOLO26 Nanoモデルを使用しています。
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")





