敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

推理延迟

通过低推理延迟优化 AI 性能。了解关键因素、实际应用以及增强实时响应的技术。

推理延迟是指经过训练的机器学习 (ML)模型接收输入并返回相应输出或预测所需的时间。它以毫秒 (ms) 为单位进行测量,是人工智能 (AI)领域中的一个关键性能指标,尤其对于需要即时反馈的应用。低延迟对于创建能够在动态、真实世界环境中运行的响应迅速且有效的人工智能系统至关重要。

为什么推理延迟很重要

低推理延迟是实现实时推理的关键,在这种情况下,必须在严格的时间范围内交付预测才能发挥作用。在许多情况下,即使是几毫秒的延迟也会导致应用程序失效或不安全。例如,自动驾驶汽车必须立即识别行人及障碍物以避免碰撞,而交互式 AI 助手需要快速响应用户查询以保持自然的对话流程。实现低延迟是模型部署中的一个核心挑战,它直接影响用户体验和应用程序可行性。

实际应用

推理延迟是许多计算机视觉应用成功的决定性因素。以下是两个例子:

  1. 自动驾驶:在汽车行业中,自动驾驶汽车的目标检测系统必须以最小的延迟处理来自摄像头和传感器的数据。低延迟使车辆能够检测到正在进入道路的行人并及时应用制动器,这是一项关键的安全功能,每一毫秒都很重要。
  2. 医疗诊断:在医疗保健中,AI模型分析医学图像以识别疾病。当像Ultralytics YOLO11这样的模型用于医学影像中的肿瘤检测时,低推理延迟使放射科医生几乎可以立即收到分析结果。这种快速反馈循环加速了诊断过程,从而为患者带来更快的治疗决策。

影响推理延迟的因素

有几个因素会影响模型执行推理的速度:

推理延迟 vs. 吞吐量

虽然经常一起讨论,但推理延迟和吞吐量衡量的是性能的不同方面。

  • 推理延迟 衡量单个预测的速度(例如,处理一张图像的速度)。 它是需要立即响应的应用程序的主要指标。
  • 吞吐量 衡量在一段时间内完成的推理总数(例如,每秒帧数)。它更适用于以整体处理能力为主要考量的批处理系统。

针对一个优化可能会对另一个产生负面影响。例如,增加批量大小通常会提高吞吐量,但会增加批处理中任何单个输入的处理时间,从而降低延迟。理解这种延迟与吞吐量的权衡对于设计满足特定操作要求的人工智能系统至关重要。

管理推理延迟是在模型准确性、计算成本和响应时间之间取得平衡。最终目标是选择一种满足应用程序性能需求的模型和部署策略,这个过程可以使用诸如Ultralytics HUB之类的平台进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板