深圳Yolo 视觉
深圳
立即加入
词汇表

推理延迟

通过低推理延迟优化 AI 性能。了解关键因素、实际应用以及增强实时响应的技术。

推理延迟是指机器学习(ML)模型在接收到输入信息后的一段时间。 机器学习(ML)模型接收输入 和产生相应输出之间的持续时间。这一指标通常以毫秒(ms)为单位,是影响 人工智能(AI)系统响应速度的决定性因素。 人工智能(AI)系统响应速度的决定性因素。 对于从事 计算机视觉 (CV)项目的开发人员和工程师来说,最大限度地减少 延迟与最大限度地提高准确性同样重要、 尤其是在部署与人类或物理机械交互的应用程序时。高延迟会导致 性能迟缓,而低延迟则能创造无缝的用户体验,实现即时决策。 这是现代 智能系统的基本概念。

低延迟的重要性

模型部署领域,系统处理数据的速度决定了其对特定任务的可行性。 在模型部署领域,系统处理数据的速度决定了其对特定任务的可行性。低推理延迟是实时推理的基石。 实时推理的基石。 在这种情况下,预测必须在严格的时间预算内完成,才具有可操作性。例如,几百毫秒的延迟可能是 对于购物网站上的推荐系统 例如,对于购物网站上的推荐系统来说,几百毫秒的延迟可能是可以接受的,但对于安全关键型系统来说,这可能是灾难性的。了解项目的具体 延迟的具体要求 团队就能选择合适的模型架构和硬件配置,以确保可靠性。

影响延迟的关键因素

单次推理所需的总时间由多个变量组成:

  • 建筑模型:神经网络(NN)的结构设计 神经网络 (NN)的结构设计在很大程度上影响其 速度。具有许多层的深度模型,如大型 的深度模型,如大型变压器 比轻量级 卷积神经网络 (CNN)。像 YOLO11等架构进行了优化,以平衡 深度和速度之间的平衡,从而实现高效执行。
  • 硬件加速:处理单元的选择至关重要。虽然标准的 CPU能很好地处理一般任务,但专用硬件如 GPU (图形处理器)TPU (Tensor 处理单元 等专用硬件,旨在并行处理人工智能模型所需的矩阵运算,从而大幅缩短计算时间。 NVIDIA CUDA技术是促进这种加速的常见软件实例。 加速软件的常见例子。
  • 输入分辨率:处理较大的图像或视频帧需要更多的计算资源。 缩小输入尺寸(例如从 640p 缩小到 320p)可以减少延迟,但可能会以检测到小物体为代价。 小物体的代价,这也是 EfficientNet 研究中探讨过这一权衡问题。
  • 模型优化:模型量化 模型量化--将权重从 从 32 位浮点转换为 8 位整数,以及 模型剪枝等技术可去除多余的计算。工具 等工具专门用于降低目标硬件的延迟。

实际应用

推理延迟的实际影响最好通过具体的使用案例来了解,在这些案例中,速度是不容置疑的。

  1. 自动驾驶:在 人工智能在汽车应用,车辆必须 持续感知周围环境。一个 物体检测系统必须在几毫秒内 必须在几毫秒内处理摄像头信号并触发制动系统。过长的延迟 会增加制动距离,直接影响安全。对 自动驾驶汽车延迟的研究表明,即使是微小的 延迟也会导致危险情况。
  2. 工业机器人:对于 人工智能在制造业中的应用 拾放机器人依靠视觉系统在快速移动的传送带上定位物品。如果推理 延迟超过物体在机器人触及范围内的时间,系统就会失效。实施 边缘人工智能解决方案可确保数据在设备上进行本地处理 消除与云计算相关的网络延迟。 云计算带来的网络延迟。

推理延迟 vs. 吞吐量

区分 "延迟 "和 "吞吐量 "至关重要,因为它们通常与优化目标成反比。 优化目标。

  • 推理延迟主要是指单次预测所需的时间。它是 单用户交互式应用(如 虚拟助手自主机器人
  • 吞吐量衡量的是系统在给定时间内(如每秒处理图像)能处理多少预测数据。 秒)。高吞吐量通常是通过增加 同时处理多个输入 同时处理多个输入。然而,批处理往往会增加队列中每个等待项目的延迟。

这种 延迟和吞吐量之间的权衡 这就要求开发人员根据部署环境的具体需求调整推理管道。

使用Ultralytics测量延迟

您可以使用内置基准模式评估Ultralytics 模型的性能。该工具提供了详细的 不同格式的推理速度指标,如 ONNXTorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

优化生产

为了实现尽可能低的延迟,开发人员通常会使用适合其硬件的 推理引擎。例如 例如,在NVIDIA Jetson 设备上部署一个模型,使用 TensorRT 优化技术在英伟达TensorRT 设备上部署模型,速度会显著快于 运行原始 PyTorch代码相比,速度会大幅提升。同样,利用 Intel OpenVINO可以加快 标准CPU 架构的性能。与标准训练框架相比,这些工具能更有效地优化计算图、合并层和管理内存。 比标准训练框架更高效。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入