术语表

推理引擎

了解推理引擎如何通过提供实时预测、优化模型和实现跨平台部署为人工智能提供动力。

推理引擎是一个专门的软件组件,用于执行训练有素的机器学习模型,以便从新的、未见过的数据中生成预测结果。使用PyTorchTensorFlow 等框架对模型进行训练后,推理引擎将接手在生产环境中高效运行该模型。推理引擎的主要目标是优化模型的速度和资源使用,使其能够在各种硬件平台(从功能强大的云服务器到资源有限的边缘设备)上实现实时推理

推理引擎的作用

推理引擎的核心功能是弥合训练有素的模型与实际应用之间的差距。推理引擎进行了多项关键优化,以最大限度地减少推理延迟和提高吞吐量,同时又不会明显影响准确性

主要优化技术包括

  • 图优化:引擎会分析模型的计算图,并应用 "层融合 "等优化方法。"层融合 "将多个连续操作合并为一个操作,以减少计算开销。
  • 特定硬件优化:编译模型以便在特定硬件上运行,如CPUGPU 或专门的人工智能加速器(如谷歌的 TPU)。这需要使用根据硬件架构定制的高度优化的计算内核。
  • 精度降低: 模型量化等技术用于将模型权重从 32 位浮点数转换为更高效的 16 位或 8 位整数。这大大减少了内存使用量,加快了计算速度,对边缘计算尤为重要。
  • 模型剪枝:推理引擎可以帮助运行通过模型剪枝去除不必要权重的模型,从而进一步减少模型的大小和计算需求。

流行推理引擎

许多机构都开发了高性能推理引擎,以加速深度学习模型。热门选择包括

实际应用

推理引擎是无数人工智能应用的运行支柱。

  1. 人工智能汽车解决方案中,推理引擎在车载计算机上运行,处理来自摄像头和传感器的数据。它执行一个物体检测模型(如Ultralytics YOLO11),在几毫秒内识别行人、交通标志和其他车辆,从而实现关键的安全功能。
  2. 智能制造方面,工厂车间的推理引擎为用于质量控制的计算机视觉系统提供动力。它能实时分析生产线上的图像,检测缺陷,确保产品高速可靠地达到质量标准。

推理引擎与相关概念

将推理引擎与MLOps 中的其他相关术语区分开来很有帮助。

  • ML 框架与推理引擎:PyTorch这样的机器学习框架是一个用于训练和部署模型的综合库。它包括构建神经网络、管理数据集和运行训练循环的工具。相比之下,推理引擎是一种高度专业化的工具,只专注于部署阶段。虽然框架具有基本的推理能力,但专用推理引擎可通过积极的硬件特定优化提供卓越的性能。

  • 模型服务与推理引擎:模型服务指的是通过网络提供模型的更广泛的基础设施,包括 API 端点、负载平衡器和监控工具等组件。推理引擎是模型服务系统中执行预测请求的核心组件。您可以探索各种模型部署选项,了解推理引擎如何融入大环境。Ultralytics HUB等平台简化了从训练到优化部署的整个过程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板