Yolo 深圳
深セン
今すぐ参加
用語集

TensorRT

NVIDIA 深層学習モデルTensorRT 仕組みを探求しましょう。Ultralytics TensorRT にエクスポートし、低遅延・高速推論TensorRT 今すぐ学びましょう。

TensorRT NVIDIA開発した高性能な深層学習推論ソフトウェア開発キット(SDK)TensorRT 。 これは、ニューラルネットワークモデルをデプロイ向けに最適化し、深層学習アプリケーション向けに 低い推論レイテンシと高いスループットを実現するよう設計されています。最適化コンパイラとして機能することで、TensorRT PyTorchやTensorFlowなどの人気フレームワークから学習済みネットワークTensorRT 、 PyTorchTensorFlow フレームワークから学習済みネットワークTensorFlow NVIDIA GPU上で効率的に実行されるよう再構築します。 この機能は、速度と効率が最優先される実稼働環境において複雑なAIモデルを実行するために不可欠です。

TensorRT モデルをTensorRT する方法

TensorRT 学習済みニューラルネットワークを、対象ハードウェア向けに最適化された「エンジン」に変換するTensorRT 。 これはいくつかの高度な技術によって実現されます:

  • レイヤフュージョン:オプティマイザはニューラルネットワークの複数層を単一のカーネルに統合し、 メモリアクセスオーバーヘッドを削減し、実行速度を向上させる。
  • 精密校正: TensorRT 、混合精度(FP16)や整数量子化(INT8)などの低精度TensorRT 。数値表現に使用するビット数を削減することで(多くの場合、精度損失は最小限に抑えられます)、開発者は数学演算を大幅に高速化し、メモリ使用量を削減できます。これはモデル量子化の一形態です。
  • カーネル自動チューニング:ソフトウェアは使用中のGPU 最適なデータ層とアルゴリズムを自動的に選択し、ハードウェアの並列処理能力を最大限に活用します。 CUDA

実際のアプリケーション

TensorRT 、膨大な量のデータを最小限の遅延で処理できるため、 コンピュータービジョンや複雑なAIタスクに依存し、 タイミングが極めて重要な産業分野で広く採用TensorRT 。

  1. 自律システム: 自動車分野のAIにおいて、自動運転車は複数のカメラからの映像フィードを処理し、detect 、標識、障害物を瞬時にdetect 。TensorRTを使用することで、物体検出ネットワークなどの知覚モデルはフレームを数ミリ秒で分析でき、車両制御システムが遅延なく安全上重要な判断を下せるようにする。
  2. 産業オートメーション:現代の工場では、製造工程における自動光学検査にAIを活用しています。高速カメラが組立ライン上の製品画像を撮影し、TensorRTモデルがリアルタイムで欠陥や異常を識別します。これにより、品質管理が高速生産環境に追従することが保証され、多くの場合、NVIDIA プラットフォームのようなエッジAIデバイスを工場フロアに直接配置して運用されています。

Ultralytics TensorRT YOLO TensorRT の使用

TensorRT ワークフローに統合するのは、最新のAIツールを使えば簡単だ。その ultralytics package 標準的なPyTorch TensorRT シームレスに変換する手法を提供します。これによりユーザーは 最先端のアーキテクチャを活用できます Ultralytics YOLO26 NVIDIA ハードウェアアクセラレーションにより実現されます。エクスポート前にデータセットとトレーニングパイプラインを管理したいチーム向けに、 Ultralytics そのような高性能なデプロイメントに向けたモデルを準備するための包括的な環境を提供します。

以下の例は、YOLO26モデルをTensorRT エンジンファイルにエクスポートする方法を示しています(.engine) そして それを リアルタイム推論:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT .ONNX . トレーニングフレームワーク

TensorRT 、モデルデプロイメントの分野でよく耳にする他のTensorRT 区別することが重要です:

  • TensorFlow比較: PyTorch フレームワークは主にモデルのトレーニングと研究向けにPyTorch 、柔軟性とデバッグの容易さを提供します。TensorRT 、トレーニング済みモデルを可能な限り高速に実行することのみを目的として設計された推論エンジンです。トレーニングには使用されません。
  • 対ONNX: ONNX (Open Neural Network Exchange) フォーマットはフレームワーク間の仲介ブリッジとして機能します。ONNX 相互運用性(例:PyTorch 他PyTorch モデル移行)ONNX 一方、TensorRT ハードウェア固有の最適化にTensorRT 。多くの場合、モデルはONNX に変換され、TensorRT によって解析TensorRT 最終的なエンジンTensorRT 生成TensorRT

AIエージェントやビジョンシステムの性能を最大化を目指す開発者にとって、 トレーニングフレームワークからTensorRT のような最適化されたランタイムへの移行を理解することは、 プロフェッショナルなMLOpsにおける重要なTensorRT 。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加