深圳尤洛视觉
深圳
立即加入
词汇表

推理引擎

了解推理引擎如何通过提供实时预测、优化模型和实现跨平台部署来驱动AI。

推理引擎是一种专门的软件组件,它执行经过训练的机器学习模型,以从新的、未见过的数据中生成预测。在使用 PyTorchTensorFlow 等框架训练模型后,推理引擎会接管并在生产环境中高效运行它。它的主要目标是优化模型的速度和资源使用,从而可以在各种硬件平台上实现实时推理,从强大的云服务器到资源受限的边缘设备

推理引擎的作用

推理引擎的核心功能是弥合已训练模型与实际应用之间的差距。它执行多项关键优化,以最大限度地减少推理延迟并最大化吞吐量,同时不会显著降低准确性

关键优化技术包括:

  • 图优化: 该引擎分析模型的计算图并应用诸如“层融合”之类的优化,该优化将多个顺序操作组合成一个操作,以减少计算开销。
  • 特定于硬件的优化: 它编译模型以在特定硬件上运行,例如 CPUGPU 或专用 AI 加速器(如 Google 的 TPU)。这涉及使用针对硬件架构量身定制的高度优化的计算内核。
  • 精度降低:模型量化这样的技术用于将模型的权重从 32 位浮点数转换为更高效的 16 位或 8 位整数。 这大大减少了内存使用并加快了计算速度,这对于边缘计算尤其重要。
  • 模型剪枝: 推理引擎可以促进运行通过模型剪枝移除不必要权重的模型,从而进一步减小模型的大小和计算需求。

常用推理引擎

许多组织已经开发了高性能的推理引擎来加速深度学习模型。流行的选择包括:

  • NVIDIA TensorRT: NVIDIA GPU 的高性能优化器和运行时,提供最先进的推理速度。Ultralytics 提供与 TensorRT 的无缝集成,用于部署 YOLO 模型。
  • 英特尔的 OpenVINO: 一种开源工具包,用于优化和部署在英特尔硬件(包括 CPU 和集成 GPU)上的模型。Ultralytics 模型可以轻松导出到 OpenVINO
  • ONNX Runtime: 由 Microsoft 开发的跨平台引擎,可以在各种硬件上以ONNX (Open Neural Network Exchange)格式运行模型。
  • TensorFlow Lite (TFLite): 一种轻量级解决方案,专门设计用于在移动和嵌入式设备(例如运行Android和iOS的设备)上部署模型。
  • Apache TVM: 一个开源的机器学习编译器框架,可以优化各种硬件后端的模型。

实际应用

推理引擎是无数人工智能应用的操作骨干。

  1. 汽车解决方案人工智能中,推理引擎在车辆的板载计算机上运行,以处理来自摄像头和传感器的数据。它执行像 Ultralytics YOLO11 这样的目标检测模型,以毫秒为单位识别行人、交通标志和其他车辆,从而实现关键的安全功能。
  2. 智能制造领域,工厂车间内的推理引擎为质量控制的计算机视觉系统提供动力。它实时分析生产线上的图像以检测缺陷,确保产品以高速和高可靠性满足质量标准。

推理引擎 vs. 相关概念

区分推理引擎与MLOps中的其他相关术语很有帮助。

  • ML 框架与推理引擎:PyTorch 这样的机器学习框架是一个综合库,用于训练和部署模型。它包括构建神经网络、管理数据集和运行训练循环的工具。相比之下,推理引擎是一种高度专业化的工具,专门用于部署阶段。虽然框架具有基本的推理能力,但专用推理引擎通过积极的、特定于硬件的优化提供卓越的性能。

  • 模型服务 vs. 推理引擎: 模型服务是指通过网络提供模型的更广泛基础设施,其中包括 API 端点、负载均衡器和监控工具等组件。推理引擎是模型服务系统中的核心组件,用于执行预测请求。您可以探索各种模型部署选项,以了解推理引擎如何融入更大的图景。像 Ultralytics HUB 这样的平台简化了从训练到优化部署的整个过程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板