词汇表

推理延迟

通过低推理延迟优化 AI 性能。了解关键因素、实际应用以及增强实时响应的技术。

推理延迟是指机器学习（ML）模型在接收到输入信息后的一段时间。机器学习（ML）模型从接收输入和产生相应输出之间的持续时间。这一指标通常以毫秒（ms）为单位，是影响人工智能（AI）系统响应速度的决定性因素。人工智能（AI）系统响应速度的决定性因素。对于从事计算机视觉 (CV)项目的开发人员和工程师来说，最大限度地减少延迟与最大限度地提高准确性同样重要、尤其是在部署与人类或物理机械交互的应用程序时。高延迟会导致性能迟缓，而低延迟则能创造无缝的用户体验，实现即时决策。这是现代智能系统的基本概念。

低延迟的重要性

在模型部署领域，系统处理数据的速度决定了其对特定任务的可行性。在模型部署领域，系统处理数据的速度决定了其对特定任务的可行性。低推理延迟是实时推理的基石。实时推理的基石。在这种情况下，预测必须在严格的时间预算内完成，才具有可操作性。例如，几百毫秒的延迟可能是对于购物网站上的推荐系统例如，对于购物网站上的推荐系统来说，几百毫秒的延迟可能是可以接受的，但对于安全关键型系统来说，这可能是灾难性的。了解项目的具体延迟的具体要求团队就能选择合适的模型架构和硬件配置，以确保可靠性。

影响延迟的关键因素

单次推理所需的总时间由多个变量组成：

建筑模型：神经网络（NN）的结构设计神经网络 (NN)的结构设计在很大程度上影响其速度。具有许多层的深度模型，如大型层的深度模型，如大型变压器比轻量级卷积神经网络 (CNN)。像 YOLO11等架构进行了优化，以平衡深度和速度之间的平衡，从而实现高效执行。
硬件加速：处理单元的选择至关重要。虽然标准的 CPU能很好地处理一般任务，但专用硬件如 GPU （图形处理器）或 TPU （Tensor 处理单元等专用硬件，旨在并行处理人工智能模型所需的矩阵运算，从而大幅缩短计算时间。 NVIDIA CUDA技术是促进这种加速的常见软件实例。加速软件的常见例子。
输入分辨率：处理较大的图像或视频帧需要更多的计算资源。缩小输入尺寸（例如从 640p 缩小到 320p）可以减少延迟，但可能会以检测到小物体为代价。小物体的代价，这也是 EfficientNet 研究中探讨过这一权衡问题。
模型优化：模型量化模型量化--将权重从从 32 位浮点转换为 8 位整数，以及模型剪枝等技术可去除多余的计算。工具等工具专门用于降低目标硬件的延迟。

实际应用

推理延迟的实际影响最好通过具体的使用案例来了解，在这些案例中，速度是不容置疑的。

自动驾驶：在人工智能在汽车应用中，车辆必须持续感知周围环境。一个物体检测系统必须在几毫秒内必须在几毫秒内处理摄像头信号并触发制动系统。过长的延迟会增加制动距离，直接影响安全。对自动驾驶汽车延迟的研究表明，即使是微小的延迟也会导致危险情况。
工业机器人：对于人工智能在制造业中的应用拾放机器人依靠视觉系统在快速移动的传送带上定位物品。如果推理延迟超过物体在机器人触及范围内的时间，系统就会失效。实施边缘人工智能解决方案可确保数据在设备上进行本地处理消除与云计算相关的网络延迟。云计算带来的网络延迟。

推理延迟 vs. 吞吐量

区分 "延迟 "和 "吞吐量 "至关重要，因为它们通常与优化目标成反比。优化目标。

推理延迟主要是指单次预测所需的时间。它是单用户交互式应用（如虚拟助手或自主机器人。
吞吐量衡量的是系统在给定时间内（如每秒处理图像）能处理多少预测数据。秒）。高吞吐量通常是通过增加同时处理多个输入同时处理多个输入。然而，批处理往往会增加队列中每个等待项目的延迟。

这种延迟和吞吐量之间的权衡这就要求开发人员根据部署环境的具体需求调整推理管道。

使用Ultralytics测量延迟

您可以使用内置基准模式评估Ultralytics 模型的性能。该工具提供了详细的不同格式的推理速度指标，如 ONNX或 TorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

优化生产

为了实现尽可能低的延迟，开发人员通常会使用适合其硬件的推理引擎。例如例如，在NVIDIA Jetson 设备上部署一个模型，使用 TensorRT 优化技术在英伟达TensorRT 设备上部署模型，速度会显著快于运行原始 PyTorch代码相比，速度会大幅提升。同样，利用 Intel OpenVINO可以加快标准CPU 架构的性能。与标准训练框架相比，这些工具能更有效地优化计算图、合并层和管理内存。比标准训练框架更高效。

推理延迟

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

低延迟的重要性

影响延迟的关键因素

实际应用

推理延迟 vs. 吞吐量

使用Ultralytics测量延迟

优化生产

阅读更多此类别的内容

未来物体检测趋势：需要关注的 7 个关键问题

利用Ultralytics YOLO 模型增强车辆再识别能力

利用Ultralytics YOLO 模型改进碰撞预测

加入Ultralytics 社区