了解Ultralytics YOLO 的实时推理如何为自动驾驶和安全系统等人工智能应用提供即时预测。
实时推理是指经过训练的机器学习模型接受实时输入数据的过程。 机器学习模型接受实时输入数据 并几乎在瞬间生成预测的过程。在这种情况下,"实时 "意味着处理 在这里,"实时 "意味着处理速度足以跟上输入数据流的速度,使系统能够立即做出决策。这种 能力是现代计算机视觉应用的基石 计算机视觉应用的基石,使设备 以最小的延迟感知环境并做出反应。
评估实时性能的主要指标是 推理延迟,它衡量的是 推理延迟是评估实时性的主要指标。要使系统具有实时性,这一延迟 延迟必须低到足以满足用例的特定时间限制。例如 视频理解系统以 每秒 30 帧(FPS)的视频理解系统大约需要 33 毫秒来处理每一帧。如果推理需要更长的时间,帧 就会被丢弃,系统就会滞后。
要达到这样的速度,通常需要利用专门的硬件,如 GPU或专用 边缘人工智能加速器,如 NVIDIA Jetson 平台。此外、 工程师还经常使用 模型优化技术 以降低计算复杂度,同时又不会明显牺牲精度。
必须将实时工作流与批量推理区分开来。 批处理推理。 实时推理是在数据点到达时对其进行单独处理,以最大限度地减少延迟,而批处理推理是在数据点到达时对其进行单独处理,以最大限度地减少延迟。 则是将数据分成大块,稍后再一起处理。
通过将需要瞬间决策的复杂任务自动化,即时预测的能力改变了多个行业。 需要瞬间做出决策的复杂任务,从而改变了多个行业。
为了达到实时应用所需的速度,开发人员通常使用优化的推理引擎来部署模型。 引擎来部署模型。像 TensorRTNVIDIA 框架 硬件或 OpenVINO等框架可以 可以大大提高性能。此外,诸如 模型量化等技术,可将模型权重的精度从浮点数降低为整数。 模型权重的精度从浮点值降低到整数值--这些技术可以大大减少内存占用,提高嵌入式系统的执行速度。 在嵌入式系统上的执行速度。
下面的Python 示例演示了如何使用
ultralytics 图书馆
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
随着5G 连接的扩展和硬件功能的日益强大、 实时人工智能的范围也在不断扩大。诸如 物联网(IoT) 等概念正变得越来越智能,从简单的数据收集者转变为积极的决策者。未来的发展,如 未来的发展,如即将推出的YOLO26,旨在进一步推动这些界限 提供更小、更快的端到端原生模型,确保 智能城市和医疗设备能够 实时无缝运行。

