敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

TensorRT

使用 TensorRT 优化深度学习模型,以便在 NVIDIA GPU 上实现更快、更高效的推理。通过 YOLO 和 AI 应用程序实现实时性能。

TensorRT 是 NVIDIA 提供的高性能深度学习推理优化器和运行时库。它专门用于最大限度地提高训练后的神经网络 (NN)在 NVIDIA 图形处理单元 (GPU) 上的性能。在使用 PyTorchTensorFlow 等框架训练模型后,TensorRT 会获取该模型并应用大量优化来准备部署。结果是一个高效的运行时引擎,可以显着减少推理延迟并提高吞吐量,使其成为需要实时推理的应用程序的理想选择。

TensorRT 的工作原理

TensorRT 通过一个多步骤优化过程来实现其性能提升,该过程将标准训练模型转换为简化的推理引擎。此过程在很大程度上是自动化的,并且是根据将要部署的特定 NVIDIA GPU 架构量身定制的。关键优化技术包括:

  • 图优化: TensorRT 解析训练后的模型并执行图优化,例如消除未使用的层以及垂直融合层(组合顺序层)和水平融合层(组合并行层)。这减少了操作次数和内存开销。
  • 精度校准: 它支持较低精度的推理,例如混合精度 (FP16) 和 INT8。 通过模型量化将模型权重从 32 位浮点 (FP32) 转换为较低精度,TensorRT 显着降低了内存使用量和计算要求,同时对准确率的影响极小。
  • 内核自动调整: TensorRT 从庞大的优化 GPU 内核库中为每个操作选择内核,或者为其创建专门调整的内核以适应目标 GPU。这确保了在硬件上尽可能高效地执行每次计算。
  • 张量内存优化: 它通过在模型执行过程中重用张量的内存来优化内存使用,从而减少内存占用并提高性能。

Ultralytics YOLO 模型可以轻松导出为 TensorRT 格式,使开发人员能够利用这些优化来改进他们的计算机视觉 (CV)应用程序。

实际应用

TensorRT 对于在时间敏感和资源受限的环境中部署高性能 AI 至关重要。

  1. 自动驾驶汽车:在自动驾驶汽车中,感知系统必须实时处理来自摄像头和传感器的数据,以检测行人、其他车辆和障碍物。使用 TensorRT 优化的 Ultralytics YOLO11 等模型可以以极低的延迟执行目标检测,这对于做出安全的驾驶决策至关重要。
  2. 智能制造: 在工厂车间,制造领域中的 AI用于自动化质量控制。摄像头捕获传送带上产品的图像,视觉模型会分析这些图像是否存在缺陷。通过使用 TensorRT,这些系统可以跟上高速生产线的速度,立即识别问题并提高整体效率。

TensorRT 与相关技术

虽然 TensorRT 是一个强大的推理引擎,但务必了解它与 AI 生态系统中其他工具的不同之处:

  • 深度学习框架:像 PyTorch 和 TensorFlow 这样的框架主要用于训练模型。虽然它们有自己的推理能力,但它们不像 TensorRT 这样的专用运行时那样针对部署进行优化。
  • ONNX Runtime开放神经网络交换 (ONNX)格式提供了一种以互操作方式表示模型的方法。 ONNX Runtime 可以在各种硬件平台上执行模型,包括 NVIDIA GPU(它可以在其中使用 TensorRT 作为执行提供程序)。 但是,由于其特定于硬件的优化,直接与 TensorRT 集成通常可以在 NVIDIA 硬件上产生更好的性能。
  • Intel OpenVINO: OpenVINO 类似于 TensorRT,但针对 Intel 硬件(CPU、iGPU、VPU)进行了优化。它提供相同的加速推理目的,但专为不同的硬件生态系统量身定制。

TensorRT 的主要优势在于其与 NVIDIA 生态系统的深度集成,从 GPU 到 CUDA 库,为部署在 NVIDIA 平台上的模型提供无与伦比的性能,这在 MLPerf 基准测试中经常得到体现。借助 Ultralytics HUB 等 MLOps 平台,可以进一步简化模型部署管理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板