Inference Latency
探索 AI 中推理延迟的重要性。了解如何通过 Ultralytics YOLO26 优化实时性能,以获得更快、响应更迅速的应用。
推理延迟是指 机器学习 (ML) 模型接收输入(例如图像或文本提示)到产生相应输出或预测之间的时间延迟。在 人工智能 (AI) 的语境下,该指标通常以毫秒 (ms) 为单位进行测量,并作为系统响应能力的关键指标。对于构建 计算机视觉 应用的开发者来说,理解并最小化延迟对于创建流畅、交互式的用户体验至关重要,特别是在将模型部署到手机或嵌入式设备等资源受限的环境中时。
Link to this section为何推理延迟很重要#
推理延迟的重要性在很大程度上取决于具体的应用场景。虽然对于诸如分析夜间服务器报告之类的 批处理 任务,几秒钟的延迟可能尚可接受,但对于交互式应用而言,这通常是不可接受的。低延迟是 实时推理 的基石,在实时推理中,系统必须处理数据并进行瞬时响应。
降低延迟可以确保 AI 智能体 能够与人类自然交互,并确保自动化系统安全运行。高延迟会导致界面“卡顿”、用户留存率下降,或者在安全关键型场景下导致危险的操作故障。工程师通常必须在模型复杂度(这可以提高 准确性)与执行速度之间取得平衡。
Link to this section影响延迟的因素#
几个技术组件会影响单次推理过程所需的总时间:
- 模型架构: 神经网络 (NN) 的设计是主要因素。层数较深的深度模型通常比浅层模型需要更多的计算量。像 YOLO26 这样的现代架构经过专门优化,能够以最小的计算开销提供高准确性。
- 硬件能力: 处理单元的选择会极大地影响速度。虽然 CPU 用途广泛,但像 GPU (图形处理单元) 或 TPU (张量处理单元) 这样的专用硬件旨在并行处理 深度学习 的核心矩阵运算,从而显著降低延迟。
- 输入大小: 处理高分辨率 4K 视频帧的时间比处理标准 640p 图像的时间更长。开发者通常会在 数据预处理 阶段调整输入大小,以在速度和检测小细节的能力之间找到最佳平衡点。
- 优化技术: 模型量化(将权重转换为较低精度)和 模型剪枝(移除不必要的连接)等方法是加速执行的有效手段。诸如 NVIDIA TensorRT 等工具可以进一步针对特定硬件优化模型。
Link to this section实际应用#
通过速度至关重要的实际示例,可以最好地说明推理延迟的影响。
-
自动驾驶: 在 汽车 AI 领域,自动驾驶汽车必须持续扫描其周围环境中的行人、其他车辆和交通信号。如果 目标检测 系统延迟较高,汽车可能无法在障碍物出现时及时制动。在高速行驶时,即使是 100 毫秒的延迟也可能导致几米的行驶距离,这使得低延迟成为一项关键的安全要求。
-
高频交易: 金融机构使用 预测建模 来分析市场趋势并执行交易。这些算法必须处理海量数据并在微秒级做出决策。在这个领域,更低的延迟直接转化为竞争优势,使公司能够在竞争对手反应过来之前把握住稍纵即逝的市场机会。
Link to this section使用 Python 测量延迟#
你可以使用 benchmark 模式轻松测量 Ultralytics 模型的推理速度。这有助于为你的特定硬件限制选择合适的模型大小。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")Link to this section推理延迟与吞吐量#
区分延迟和吞吐量非常重要,因为它们在 模型部署 中是相关但不同的概念。
- 推理延迟衡量的是单次预测所需的时间(例如:“处理此图像花费了 20ms”)。这是针对单用户、实时应用的关键指标。
- 吞吐量衡量的是一段时间内的预测总量(例如:“系统每秒处理 500 张图像”)。高吞吐量通常通过增加 批大小 来实现,即同时处理多个输入。然而,批处理实际上可能会增加队列中等待的单个项目的延迟。
优化其中一项往往是以牺牲另一项为代价的。例如,边缘 AI 应用通常优先考虑延迟以确保即时反馈,而基于云的 数据挖掘 任务可能优先考虑吞吐量,以便高效地处理海量数据集。
Link to this section优化策略#
开发者采用多种策略来最小化延迟。将 模型导出 为 ONNX 或 OpenVINO 等优化格式可以在标准 CPU 上获得显著的速度提升。对于移动端部署,将模型转换为 TFLite 或 CoreML 可确保它们在 iOS 和 Android 设备上高效运行。此外,使用像 MobileNet 或最新的 Ultralytics YOLO26 这样的轻量级架构可确保基础模型在设计上就是高效的。用户还可以利用 Ultralytics Platform 无缝地将模型部署为这些优化格式,而无需复杂的手动配置。






