通过低推理延迟优化 AI 性能。了解关键因素、实际应用以及增强实时响应的技术。
推理延迟是指机器学习(ML)模型在接收到输入信息后的一段时间。 机器学习(ML)模型从接收输入 和产生相应输出之间的持续时间。这一指标通常以毫秒(ms)为单位,是影响 人工智能(AI)系统响应速度的决定性因素。 人工智能(AI)系统响应速度的决定性因素。 对于从事 计算机视觉 (CV)项目的开发人员和工程师来说,最大限度地减少 延迟与最大限度地提高准确性同样重要、 尤其是在部署与人类或物理机械交互的应用程序时。高延迟会导致 性能迟缓,而低延迟则能创造无缝的用户体验,实现即时决策。 这是现代 智能系统的基本概念。
在模型部署领域,系统处理数据的速度决定了其对特定任务的可行性。 在模型部署领域,系统处理数据的速度决定了其对特定任务的可行性。低推理延迟是实时推理的基石。 实时推理的基石。 在这种情况下,预测必须在严格的时间预算内完成,才具有可操作性。例如,几百毫秒的延迟可能是 对于购物网站上的推荐系统 例如,对于购物网站上的推荐系统来说,几百毫秒的延迟可能是可以接受的,但对于安全关键型系统来说,这可能是灾难性的。了解项目的具体 延迟的具体要求 团队就能选择合适的模型架构和硬件配置,以确保可靠性。
单次推理所需的总时间由多个变量组成:
推理延迟的实际影响最好通过具体的使用案例来了解,在这些案例中,速度是不容置疑的。
区分 "延迟 "和 "吞吐量 "至关重要,因为它们通常与优化目标成反比。 优化目标。
这种 延迟和吞吐量之间的权衡 这就要求开发人员根据部署环境的具体需求调整推理管道。
您可以使用内置基准模式评估Ultralytics 模型的性能。该工具提供了详细的 不同格式的推理速度指标,如 ONNX或 TorchScript.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
为了实现尽可能低的延迟,开发人员通常会使用适合其硬件的 推理引擎。例如 例如,在NVIDIA Jetson 设备上部署一个模型,使用 TensorRT 优化技术在英伟达TensorRT 设备上部署模型,速度会显著快于 运行原始 PyTorch代码相比,速度会大幅提升。同样,利用 Intel OpenVINO可以加快 标准CPU 架构的性能。与标准训练框架相比,这些工具能更有效地优化计算图、合并层和管理内存。 比标准训练框架更高效。

