术语表

实时推理

了解Ultralytics YOLO 的实时推理如何为自动驾驶和安全系统等人工智能应用提供即时预测。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

实时推理是指训练有素的机器学习(ML)模型在新数据到达时立即做出预测或决策的过程。批处理推理是对一段时间内收集的数据进行分组处理,而实时推理则不同,它优先考虑低延迟和即时响应。对于需要根据实时数据流立即做出反馈或行动的应用来说,这种能力至关重要,它使系统能够对不断变化的条件做出动态响应,符合实时计算的原则。

了解实时推理

在实践中,实时推理意味着部署一个 ML 模型,例如 Ultralytics YOLO计算机视觉(CV)模型,这样它就能分析单个数据输入(如视频帧或传感器读数),并以最小的延迟产生输出。关键的性能指标是推理延迟,即从接收输入到生成预测所需的时间。实现低延迟通常涉及多种策略,包括优化模型本身以及利用专用硬件和软件。

实时推理与批量推理

主要区别在于处理数据的方式和相关的延迟要求:

  • 实时推理:在数据到达时逐点处理数据,重点是尽量减少每次预测的延迟。这对于需要即时响应的交互式系统或应用至关重要。想想为自动驾驶汽车检测障碍物。
  • 批量推理:以大块或批次的形式处理数据,通常定期安排。针对吞吐量(高效处理大量数据)而非延迟进行了优化。适用于生成日常报告或离线分析大型数据集等任务。Google 云为批量预测提供了深入见解

实时推理的应用

实时推理为许多现代人工智能(AI)应用提供了动力,在这些应用中,即时决策至关重要:

实现实时性能

要使模型在实时应用中运行得足够快,往往需要进行大量优化:

模式,如 Ultralytics YOLO11等模型在设计时充分考虑了效率和准确性,因此非常适合实时物体检测任务Ultralytics HUB等平台提供了训练、优化(如导出到 ONNX或TensorRT 格式)和部署模型的工具,有助于在各种部署选项中实施实时推理解决方案。

阅读全部