术语表

推理引擎

了解推理引擎如何通过提供实时预测、优化模型和实现跨平台部署为人工智能提供动力。

推理引擎是一个专门的软件组件，用于执行训练有素的机器学习模型，以便从新的、未见过的数据中生成预测结果。使用PyTorch或TensorFlow 等框架对模型进行训练后，推理引擎将接手在生产环境中高效运行该模型。推理引擎的主要目标是优化模型的速度和资源使用，使其能够在各种硬件平台（从功能强大的云服务器到资源有限的边缘设备）上实现实时推理。

推理引擎的作用

推理引擎的核心功能是弥合训练有素的模型与实际应用之间的差距。推理引擎进行了多项关键优化，以最大限度地减少推理延迟和提高吞吐量，同时又不会明显影响准确性。

主要优化技术包括

图优化：引擎会分析模型的计算图，并应用 "层融合 "等优化方法。"层融合 "将多个连续操作合并为一个操作，以减少计算开销。
特定硬件优化：编译模型以便在特定硬件上运行，如CPU、GPU 或专门的人工智能加速器（如谷歌的 TPU）。这需要使用根据硬件架构定制的高度优化的计算内核。
精度降低： 模型量化等技术用于将模型权重从 32 位浮点数转换为更高效的 16 位或 8 位整数。这大大减少了内存使用量，加快了计算速度，对边缘计算尤为重要。
模型剪枝：推理引擎可以帮助运行通过模型剪枝去除不必要权重的模型，从而进一步减少模型的大小和计算需求。

流行推理引擎

许多机构都开发了高性能推理引擎，以加速深度学习模型。热门选择包括

英伟达™（NVIDIA®）TensorRT：英伟达™（NVIDIA®）GPU 的高性能优化器和运行时，提供最先进的推理速度。Ultralytics 可与 TensorRT无缝集成，用于部署 YOLO 模型。
英特尔 OpenVINO：在英特尔硬件（包括 CPU 和集成 GPU）上优化和部署模型的开源工具包。Ultralytics 模型可以轻松导出到 OpenVINO。
ONNX 运行时：微软开发的跨平台引擎，可在各种硬件上运行ONNX（开放神经网络交换）格式的模型。
TensorFlow Lite (TFLite)：专为在移动和嵌入式设备（如运行 Android 和 iOS 的设备）上部署模型而设计的轻量级解决方案。
Apache TVM：开源机器学习编译器框架，可针对各种硬件后端优化模型。

实际应用

推理引擎是无数人工智能应用的运行支柱。

在人工智能汽车解决方案中，推理引擎在车载计算机上运行，处理来自摄像头和传感器的数据。它执行一个物体检测模型（如Ultralytics YOLO11），在几毫秒内识别行人、交通标志和其他车辆，从而实现关键的安全功能。
在智能制造方面，工厂车间的推理引擎为用于质量控制的计算机视觉系统提供动力。它能实时分析生产线上的图像，检测缺陷，确保产品高速可靠地达到质量标准。

推理引擎与相关概念

将推理引擎与MLOps 中的其他相关术语区分开来很有帮助。

ML 框架与推理引擎：像PyTorch这样的机器学习框架是一个用于训练和部署模型的综合库。它包括构建神经网络、管理数据集和运行训练循环的工具。相比之下，推理引擎是一种高度专业化的工具，只专注于部署阶段。虽然框架具有基本的推理能力，但专用推理引擎可通过积极的硬件特定优化提供卓越的性能。
模型服务与推理引擎：模型服务指的是通过网络提供模型的更广泛的基础设施，包括 API 端点、负载平衡器和监控工具等组件。推理引擎是模型服务系统中执行预测请求的核心组件。您可以探索各种模型部署选项，了解推理引擎如何融入大环境。Ultralytics HUB等平台简化了从训练到优化部署的整个过程。

推理引擎

培训 Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案为您的创新提供动力

使用 Ultralytics YOLO 在数秒内训练人工智能模型

推理引擎的作用

流行推理引擎

实际应用

推理引擎与相关概念

在此类别中阅读更多内容

细胞分割：什么是细胞分割？

视觉人工智能正在改变我们研究细分蠕虫的方式

使用视觉人工智能模型识别扑克牌

加入 Ultralytics 社区