Entdecken Sie, wie TensorRT Deep-Learning-Modelle für NVIDIA TensorRT . Erfahren Sie, wie Sie Ultralytics TensorRT eine latenzarme, schnelle Inferenz in TensorRT exportieren können.
TensorRT ein von NVIDIA entwickeltes hochleistungsfähiges Software Development Kit (SDK) für Deep-Learning-Inferenz. Es wurde entwickelt, um neuronale Netzmodelle für den Einsatz zu optimieren und bietet eine geringe Inferenzlatenz und einen hohen Durchsatz für Deep-Learning-Anwendungen . Als Optimierungscompiler TensorRT trainierte Netzwerke aus gängigen Frameworks wie PyTorch und TensorFlow strukturiert sie neu, damit sie aufNVIDIA-GPUs effizient ausgeführt werden können. Diese Fähigkeit ist entscheidend für die Ausführung komplexer KI-Modelle in Produktionsumgebungen, in denen Geschwindigkeit und Effizienz von größter Bedeutung sind.
Die Kernfunktion von TensorRT , ein trainiertes neuronales Netzwerk in eine optimierte „Engine” zu konvertieren, die speziell auf die Zielhardware abgestimmt ist. Dies wird durch mehrere fortschrittliche Techniken erreicht:
Aufgrund seiner Fähigkeit, riesige Datenmengen mit minimaler Verzögerung zu verarbeiten, TensorRT in Branchen eingesetzt, die auf Computer Vision und komplexe KI-Aufgaben angewiesen sind und in denen das Timing entscheidend ist.
Die Integration von TensorRT in Ihren Arbeitsablauf ist mit modernen KI-Werkzeugen einfach. Die ultralytics Das Paket
bietet eine nahtlose Methode zur Konvertierung von PyTorch in TensorRT . Dadurch können Benutzer die
modernste Architektur von Ultralytics YOLO26 mit der
Hardwarebeschleunigung von NVIDIA . Für Teams, die ihre Datensätze und Trainingspipelines vor dem Export verwalten möchten,
bietet Ultralytics bietet eine umfassende Umgebung zur Vorbereitung
von Modellen für einen solchen Hochleistungs-Einsatz.
Das folgende Beispiel zeigt, wie ein YOLO26-Modell in eine TensorRT exportiert wird (.engine) und
verwenden Sie es für Echtzeit-Inferenz:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
Es ist wichtig, TensorRT anderen Begriffen zu unterscheiden, die häufig im Zusammenhang mit der Modellbereitstellung verwendet werden:
Für Entwickler, die die Leistung ihrer KI-Agenten oder Bildverarbeitungssysteme maximieren möchten, TensorRT das Verständnis des Übergangs von einem Trainingsframework zu einer optimierten Laufzeitumgebung wie TensorRT ein wichtiger Schritt im professionellen MLOps.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens