遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Inference Latency

探索 AI 中推理延迟的重要性。了解如何通过 Ultralytics YOLO26 优化实时性能,以获得更快、响应更迅速的应用。

推理延迟是指 机器学习 (ML) 模型接收输入(例如图像或文本提示)到产生相应输出或预测之间的时间延迟。在 人工智能 (AI) 的语境下,该指标通常以毫秒 (ms) 为单位进行测量,并作为系统响应能力的关键指标。对于构建 计算机视觉 应用的开发者来说,理解并最小化延迟对于创建流畅、交互式的用户体验至关重要,特别是在将模型部署到手机或嵌入式设备等资源受限的环境中时。

Link to this section为何推理延迟很重要#

推理延迟的重要性在很大程度上取决于具体的应用场景。虽然对于诸如分析夜间服务器报告之类的 批处理 任务,几秒钟的延迟可能尚可接受,但对于交互式应用而言,这通常是不可接受的。低延迟是 实时推理 的基石,在实时推理中,系统必须处理数据并进行瞬时响应。

降低延迟可以确保 AI 智能体 能够与人类自然交互,并确保自动化系统安全运行。高延迟会导致界面“卡顿”、用户留存率下降,或者在安全关键型场景下导致危险的操作故障。工程师通常必须在模型复杂度(这可以提高 准确性)与执行速度之间取得平衡。

Link to this section影响延迟的因素#

几个技术组件会影响单次推理过程所需的总时间:

  • 模型架构: 神经网络 (NN) 的设计是主要因素。层数较深的深度模型通常比浅层模型需要更多的计算量。像 YOLO26 这样的现代架构经过专门优化,能够以最小的计算开销提供高准确性。
  • 硬件能力: 处理单元的选择会极大地影响速度。虽然 CPU 用途广泛,但像 GPU (图形处理单元)TPU (张量处理单元) 这样的专用硬件旨在并行处理 深度学习 的核心矩阵运算,从而显著降低延迟。
  • 输入大小: 处理高分辨率 4K 视频帧的时间比处理标准 640p 图像的时间更长。开发者通常会在 数据预处理 阶段调整输入大小,以在速度和检测小细节的能力之间找到最佳平衡点。
  • 优化技术: 模型量化(将权重转换为较低精度)和 模型剪枝(移除不必要的连接)等方法是加速执行的有效手段。诸如 NVIDIA TensorRT 等工具可以进一步针对特定硬件优化模型。

Link to this section实际应用#

通过速度至关重要的实际示例,可以最好地说明推理延迟的影响。

  1. 自动驾驶:汽车 AI 领域,自动驾驶汽车必须持续扫描其周围环境中的行人、其他车辆和交通信号。如果 目标检测 系统延迟较高,汽车可能无法在障碍物出现时及时制动。在高速行驶时,即使是 100 毫秒的延迟也可能导致几米的行驶距离,这使得低延迟成为一项关键的安全要求。

  2. 高频交易: 金融机构使用 预测建模 来分析市场趋势并执行交易。这些算法必须处理海量数据并在微秒级做出决策。在这个领域,更低的延迟直接转化为竞争优势,使公司能够在竞争对手反应过来之前把握住稍纵即逝的市场机会。

Link to this section使用 Python 测量延迟#

你可以使用 benchmark 模式轻松测量 Ultralytics 模型的推理速度。这有助于为你的特定硬件限制选择合适的模型大小。

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

Link to this section推理延迟与吞吐量#

区分延迟和吞吐量非常重要,因为它们在 模型部署 中是相关但不同的概念。

  • 推理延迟衡量的是单次预测所需的时间(例如:“处理此图像花费了 20ms”)。这是针对单用户、实时应用的关键指标。
  • 吞吐量衡量的是一段时间内的预测总量(例如:“系统每秒处理 500 张图像”)。高吞吐量通常通过增加 批大小 来实现,即同时处理多个输入。然而,批处理实际上可能会增加队列中等待的单个项目的延迟。

优化其中一项往往是以牺牲另一项为代价的。例如,边缘 AI 应用通常优先考虑延迟以确保即时反馈,而基于云的 数据挖掘 任务可能优先考虑吞吐量,以便高效地处理海量数据集。

Link to this section优化策略#

开发者采用多种策略来最小化延迟。将 模型导出ONNXOpenVINO 等优化格式可以在标准 CPU 上获得显著的速度提升。对于移动端部署,将模型转换为 TFLiteCoreML 可确保它们在 iOS 和 Android 设备上高效运行。此外,使用像 MobileNet 或最新的 Ultralytics YOLO26 这样的轻量级架构可确保基础模型在设计上就是高效的。用户还可以利用 Ultralytics Platform 无缝地将模型部署为这些优化格式,而无需复杂的手动配置。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅