通过低推理延迟优化 AI 性能。了解关键因素、实际应用以及增强实时响应的技术。
推理延迟指机器学习(ML)模型接收输入(如图像或文本提示)到生成对应输出或预测之间的时间间隔。 在人工智能(AI)领域,该指标通常以毫秒(ms)为单位衡量,是系统响应能力的重要指标。对于开发计算机视觉应用的开发者而言,理解并降低延迟对于打造流畅的交互式用户体验至关重要,尤其在将模型部署至手机或嵌入式设备等资源受限环境时。
推理延迟的重要性在很大程度上取决于具体应用场景。对于批处理任务(如分析夜间服务器报告),几秒钟的延迟或许尚可接受,但交互式应用通常无法容忍这种延迟。低延迟是实时推理的基础,系统必须即时处理数据并做出响应。
降低延迟可确保人工智能代理能与人类自然交互,并保障自动化系统安全运行。高延迟可能导致界面卡顿、用户流失率上升,在安全关键场景中甚至会引发危险的操作故障。工程师常需权衡模型复杂度(可提升准确性)与执行速度之间的取舍关系。
多个技术组件共同决定了单次推理通过所需的总时间:
推理延迟的影响,在速度不容妥协的实际案例中体现得最为明显。
您可通过基准测试模式轻松测量Ultralytics 推理速度。这有助于根据您的具体硬件限制选择合适的模型规模。
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Benchmark the model on CPU to measure latency
# This provides a breakdown of preprocess, inference, and postprocess time
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
区分延迟与吞吐量至关重要,因为它们在模型部署中是相关但不同的概念。
优化某一方面往往需要牺牲另一方面。例如, 边缘AI应用通常优先考虑延迟以确保即时反馈, 而基于云的数据挖掘任务则可能优先考虑吞吐量, 以高效处理海量数据集。
开发者采用多种策略来最小化延迟。 将模型导出为优化格式,例如 ONNX 或 OpenVINO 可在标准CPU上显著提升运行速度。针对移动端部署,将模型转换为 TFLite 或 CoreML 可确保模型iOS Android 设备上高效运行。 此外,采用MobileNet或 最新Ultralytics YOLO26等轻量级架构, 能从设计层面保障基础模型的效率。用户还可借助 Ultralytics 将模型无缝部署至这些优化格式, 无需复杂的手动配置。