优化人工智能性能,降低推理延迟。了解增强实时响应的关键因素、实际应用和技术。
推理延迟是指经过训练的机器学习(ML)模型接收输入并返回相应输出或预测所需的时间。它以毫秒(ms)为单位,是人工智能(AI)领域的一个关键性能指标,尤其是对于需要即时反馈的应用而言。低延迟对于创建可在动态真实环境中运行的反应灵敏、高效的人工智能系统至关重要。
低推理延迟是实现实时推理的关键,在实时推理中,预测必须在严格的时间范围内完成才能发挥作用。在许多情况下,哪怕只有几毫秒的延迟也会导致应用程序无效或不安全。例如,自动驾驶汽车必须立即识别行人和障碍物以避免碰撞,而交互式人工智能助手则需要快速响应用户询问,以保持自然的对话流程。实现低延迟是模型部署的核心挑战,直接影响用户体验和应用的可行性。
推理延迟是许多计算机视觉应用成功与否的决定性因素。这里有两个例子:
有几个因素会影响模型执行推理的速度:
虽然推理延迟和吞吐量经常放在一起讨论,但它们衡量的是性能的不同方面。
优化其中一个可能会对另一个产生负面影响。例如,增加批量大小通常会提高吞吐量,但会增加该批次中任何单个输入获得结果所需的时间,从而导致延迟恶化。要设计出满足特定操作要求的人工智能系统,了解这种延迟与吞吐量之间的权衡是非常重要的。
管理推理延迟是模型准确性、计算成本和响应时间之间的平衡之举。最终目标是选择一个能满足应用性能需求的模型和部署策略,这个过程可以使用Ultralytics HUB 等平台进行管理。