探索实时推理的强大功能,实现即时AI预测。了解 Ultralytics YOLO26 如何为边缘设备和机器人技术提供低延迟结果。
实时推理是指训练好的机器学习 (ML) 模型接受实时输入数据并几乎即时生成预测的过程。与数据在稍后批量收集和分析的离线处理不同,实时推理是即时发生的,使系统能够快速灵活地对其环境做出反应。这种能力是现代人工智能 (AI) 应用的核心,使设备能够在毫秒内感知、解释和处理数据。
评估实时性能的主要指标是推理延迟。它衡量的是数据输入模型(例如来自摄像机的帧)的时刻与模型产生输出(例如边界框或分类标签)的时刻之间的时间延迟。对于被认为是“实时”的应用,延迟必须足够低,以匹配传入数据流的速度。
例如,在以每秒30帧 (FPS) 运行的视频理解任务中,系统有大约33毫秒的严格时间预算来处理每一帧。如果推理时间更长,系统就会引入延迟,可能导致丢帧或响应延迟。实现这一点通常需要使用GPU或边缘AI专用设备(如NVIDIA Jetson)进行硬件加速。
区分实时工作流与批处理是有帮助的。虽然两者都涉及生成预测,但它们的目标和架构却大相径庭:
做出瞬间决策的能力,通过在动态环境中实现自动化,已经改变了各个行业。
为实时应用部署模型通常需要优化,以确保它们在目标硬件上高效运行。诸如模型量化等技术可以降低模型权重的精度(例如,从float32到int8),从而减少内存使用并提高推理速度,同时对准确率的影响最小。
开发人员可以利用Ultralytics Platform来简化这一过程。该平台简化了训练过程,并允许用户将模型导出为优化格式,例如 TensorRT 用于 NVIDIA GPU、OpenVINO 用于 Intel CPU,或 TFLite 用于移动部署。
以下 python 代码片段演示了如何使用网络摄像头进行实时推理
ultralytics 库。它使用 YOLO26 Nano 模型,该模型专为在边缘设备上实现高速性能而设计。
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")

开启您的机器学习未来之旅