探索实时推理的强大功能,实现即时AI预测。Ultralytics YOLO26如何为边缘设备和机器人提供低延迟结果。
实时推理是指训练好的机器学习(ML)模型接收实时输入数据并几乎瞬间生成预测的过程。与离线处理(即在后期批量收集和分析数据)不同,实时推理在运行时即时发生,使系统能够快速敏捷地响应环境变化。 这种能力是现代人工智能(AI)应用的核心脉搏,使设备能够在毫秒级内感知、解读数据并采取行动。
评估实时性能的主要指标是 推理延迟。该指标衡量从数据输入模型(例如摄像机采集的帧)到模型生成输出(如边界框或分类标签)之间的时间间隔。应用程序要被视为"实时",其延迟必须足够低,才能匹配输入数据流的速度。
例如,在以每秒30帧(FPS)运行的视频理解任务中,系统处理每帧图像的时间预算严格限制在约33毫秒。若推理耗时超出此限,系统将产生延迟,可能导致帧丢失或响应迟滞。要实现这一要求,通常需要借助GPU或专用边缘AI设备(NVIDIA )进行硬件加速。
区分实时工作流与批处理是有益的。 虽然两者都涉及生成预测, 但其目标和架构存在显著差异:
在动态环境中实现自动化的能力,使人们能够做出瞬息万变的决策,从而彻底改变了多个行业。
为实时应用部署模型时,通常需要进行优化以确保其在目标硬件上高效运行。诸如模型量化等技术通过降低模型权重的精度(例如从float32降至int8),在最小化精度损失的前提下减少内存占用并提升推理速度。
开发者可利用Ultralytics 简化此流程。该平台能简化训练过程,并允许用户将模型导出为优化格式,例如 TensorRTNVIDIA , OpenVINO 用于Intel ,或 TFLite 用于移动端部署。
以下Python 演示了如何使用
ultralytics 图书馆。它使用 YOLO26 Nano
型号,专为边缘设备上的高速性能而设计。
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")