术语表

推理延迟

优化人工智能性能,降低推理延迟。了解增强实时响应的关键因素、实际应用和技术。

推理延迟是指经过训练的机器学习(ML)模型接收输入并返回相应输出或预测所需的时间。它以毫秒(ms)为单位,是人工智能(AI)领域的一个关键性能指标,尤其是对于需要即时反馈的应用而言。低延迟对于创建可在动态真实环境中运行的反应灵敏、高效的人工智能系统至关重要。

推理延迟为何重要

低推理延迟是实现实时推理的关键,在实时推理中,预测必须在严格的时间范围内完成才能发挥作用。在许多情况下,哪怕只有几毫秒的延迟也会导致应用程序无效或不安全。例如,自动驾驶汽车必须立即识别行人和障碍物以避免碰撞,而交互式人工智能助手则需要快速响应用户询问,以保持自然的对话流程。实现低延迟是模型部署的核心挑战,直接影响用户体验和应用的可行性。

实际应用

推理延迟是许多计算机视觉应用成功与否的决定性因素。这里有两个例子:

  1. 自动驾驶:在汽车行业,自动驾驶汽车的物体检测系统必须以最小的延迟处理来自摄像头和传感器的数据。低延迟使车辆能够检测到行人踏上道路,并及时踩下刹车,这是一项关键的安全功能,每一毫秒都至关重要。
  2. 医疗诊断:在医疗保健领域,人工智能模型通过分析医学影像来识别疾病。当Ultralytics YOLO11等模型用于医学影像中的肿瘤检测时,低推理延迟使放射科医生几乎可以立即收到分析结果。这种快速反馈回路加快了诊断过程,从而为患者做出更快的治疗决定。

影响推理延迟的因素

有几个因素会影响模型执行推理的速度:

推理延迟与吞吐量

虽然推理延迟和吞吐量经常放在一起讨论,但它们衡量的是性能的不同方面。

  • 推理延迟衡量的是单次预测的速度(如处理一张图像的速度)。它是要求即时响应的应用的主要指标。
  • 吞吐量衡量的是一段时间内完成的推理总数(如每秒帧数)。它与批处理系统更为相关,因为批处理系统主要考虑的是整体处理能力。

优化其中一个可能会对另一个产生负面影响。例如,增加批量大小通常会提高吞吐量,但会增加该批次中任何单个输入获得结果所需的时间,从而导致延迟恶化。要设计出满足特定操作要求的人工智能系统,了解这种延迟与吞吐量之间的权衡是非常重要的。

管理推理延迟是模型准确性、计算成本和响应时间之间的平衡之举。最终目标是选择一个能满足应用性能需求的模型和部署策略,这个过程可以使用Ultralytics HUB 等平台进行管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板