术语表

实时推理

了解Ultralytics YOLO 的实时推理如何为自动驾驶和安全系统等人工智能应用提供即时预测。

实时推理是指训练有素的机器学习（ML）模型在新数据到达时立即做出预测或决策的过程。批处理推理是对一段时间内收集的数据进行分组处理，而实时推理则不同，它优先考虑低延迟和即时响应。对于需要根据实时数据流立即做出反馈或行动的应用来说，这种能力至关重要，它使系统能够对不断变化的条件做出动态响应，符合实时计算的原则。

了解实时推理

在实践中，实时推理意味着部署一个 ML 模型，例如 Ultralytics YOLO 计算机视觉（CV）模型，这样它就能分析单个数据输入（如视频帧或传感器读数），并以最小的延迟产生输出。关键的性能指标是推理延迟，即从接收输入到生成预测所需的时间。实现低延迟通常涉及多种策略，包括优化模型本身以及利用专用硬件和软件。

实时推理与批量推理

主要区别在于处理数据的方式和相关的延迟要求：

实时推理：在数据到达时逐点处理数据，重点是尽量减少每次预测的延迟。这对于需要即时响应的交互式系统或应用至关重要。想想为自动驾驶汽车检测障碍物。
批量推理：以大块或批次的形式处理数据，通常定期安排。针对吞吐量（高效处理大量数据）而非延迟进行了优化。适用于生成日常报告或离线分析大型数据集等任务。Google 云为批量预测提供了深入见解。

实时推理的应用

实时推理为许多现代人工智能（AI）应用提供了动力，在这些应用中，即时决策至关重要：

自主系统：在用于自动驾驶汽车和机器人的人工智能中，实时推理对于导航环境、检测障碍物（物体检测）和做出瞬间驾驶决策至关重要。
安全与监控： 安全系统利用实时推理来检测入侵、识别可疑活动或即时监控人群。
医疗保健：在手术或诊断过程中进行即时医学图像分析，可显著改善患者的治疗效果和诊断准确性。
制造业： 生产过程中的实时质量控制可即时检测生产线上的缺陷，减少浪费，提高效率。
互动应用：虚拟助手、实时语言翻译和内容推荐系统依靠低延迟推理来提供无缝的用户体验。

实现实时性能

要使模型在实时应用中运行得足够快，往往需要进行大量优化：

模型优化： 模型量化（降低模型权重的精度）和模型剪枝（删除模型的冗余部分）等技术可减少计算负荷和内存使用量。
硬件加速：利用边缘设备上的GPU、TPU（Tensor 处理单元）或专用人工智能加速器（如NVIDIA Jetson、Google Coral EdgeTPU）等专用硬件，可以显著加快计算速度。边缘计算本身对于在本地以最小延迟处理数据至关重要。
高效推理引擎：软件库和运行时，如 TensorRT, OpenVINO、ONNX Runtime 等软件库和运行时，以及诸如 PyTorch或 TensorFlow等框架为训练有素的模型提供了优化的执行路径。推理引擎专为高效运行模型进行预测而设计。

模式，如 Ultralytics YOLO11等模型在设计时充分考虑了效率和准确性，因此非常适合实时物体检测任务。Ultralytics HUB等平台提供了训练、优化（如导出到 ONNX或TensorRT 格式）和部署模型的工具，有助于在各种部署选项中实施实时推理解决方案。

实时推理

使用Ultralytics HUB 对YOLO 模型进行简单培训

灵活的企业许可解决方案为您的创新提供动力

利用Ultralytics YOLO

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解实时推理

实时推理与批量推理

实时推理的应用

实现实时性能

阅读更多博客

加入Ultralytics 社区