深圳Yolo 视觉
深圳
立即加入
词汇表

推理引擎

探索推理引擎如何优化Ultralytics 26等机器学习模型,实现实时部署。立即了解边缘AI的性能优化技巧。

推理引擎是一种专门设计的软件组件,用于执行训练好的机器学习模型并从新数据中生成预测结果。与侧重于通过反向传播等计算密集型过程学习模式的训练阶段不同,推理引擎严格针对称为模型部署的运行阶段进行优化。 其核心目标在于以最高效率运行计算,最大限度降低推理延迟并提升目标硬件的吞吐量——无论是可扩展的云服务器还是电池供电的边缘AI设备。通过剥离训练所需的开销,这些引擎使复杂神经网络得以在实时应用中高效运行。

推理引擎如何优化性能

从训练环境向推理引擎的过渡通常涉及若干优化步骤,以精简模型结构。由于模型不再需要学习,引擎可舍弃梯度更新所需的数据,从而有效冻结模型权重。 推理引擎常用的技术包括: 层融合——将多项运算合并为单一步骤以减少内存访问; 模型量化——将权重从高精度浮点格式转换为低精度整数(如INT8)。

这些优化Ultralytics 先进架构能够以惊人的速度运行,同时不会显著降低准确性。不同引擎通常针对特定硬件生态系统进行定制,以释放最大性能:

  • NVIDIA TensorRT:通过利用硬件专用内核并优化网络图,在NVIDIA GPU上实现高性能推理。
  • Intel OpenVINO:在英Intel 架构(包括CPU和集成显卡)上优化深度学习性能,使其成为边缘计算的理想选择。
  • ONNX :一款跨平台加速器,支持 ONNX 格式,在不同框架和硬件后端之间提供桥梁。

实际应用

推理引擎是许多现代人工智能便利功能背后的无声驱动者,使计算机视觉系统能够对环境做出即时反应。

  1. 自动驾驶汽车:在自动驾驶汽车中, 物体检测模型必须在毫秒级识别行人、交通标志及其他车辆。 运行于汽车硬件端的本地推理引擎确保处理过程以实时推理速度完成, 因为依赖云端连接会引入危险的延迟。
  2. 智能制造:工厂利用工业物联网摄像头对装配线上的产品进行检测。推理引擎处理视频流以执行异常检测,即时标记缺陷。这种自动化技术在不降低生产效率的前提下,有效减少了浪费并确保了严格的质量控制。

推理引擎与训练框架

区分用于创建模型的软件与运行模型的引擎很有帮助。训练框架(如 PyTorchTensorFlow)提供设计架构、计算损失函数及通过监督学习更新参数的工具。其核心优势在于灵活的架构设计与强大的调试能力。

相比之下,推理引擎从训练框架中获取最终模型,并优先考虑执行速度和内存效率。虽然您可以在训练框架内运行推理,但其效率通常远不及专用引擎,尤其是在TensorFlow Lite或AppleCore ML等工具将模型部署到手机或嵌入式设备时。

使用推理引擎与YOLO26

"(《世界人权宣言》) ultralytics 该软件包抽象了推理引擎的大部分复杂性,使用户能够无缝运行预测。在后台,它负责图像预处理和模型执行。对于需要扩展的用户, Ultralytics 平台 简化了 将模型训练并导出为兼容各类推理引擎的优化格式的流程。

以下示例演示了如何加载预训练的 YOLO26模型并在图像上运行推理:

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on an image from a URL
# The 'predict' method acts as the interface to the inference process
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入