Optimierung von Ultralytics YOLO-Modellen mit der TensorRT-Integration
Erfahre, wie du Ultralytics YOLO-Modelle mit der TensorRT-Integration für schnellere, effizientere KI-Leistung auf NVIDIA GPUs für Echtzeitanwendungen exportierst.

Stell dir ein selbstfahrendes Auto vor, das durch eine belebte Straße fährt und nur Millisekunden Zeit hat, um einen Fußgänger zu erkennen, der vom Bordstein tritt. Gleichzeitig muss es vielleicht ein Stoppschild erkennen, das teilweise von einem Baum verdeckt ist, oder schnell auf ein nahegelegenes Fahrzeug reagieren, das in die eigene Spur einschert. In solchen Situationen sind Geschwindigkeit und Echtzeit-Reaktionen entscheidend.
Hier spielt künstliche Intelligenz (KI), insbesondere Computer Vision – ein Zweig der KI, der Maschinen hilft, visuelle Daten zu interpretieren – eine Schlüsselrolle. Damit Computer Vision Lösungen in realen Umgebungen zuverlässig funktionieren, müssen sie oft Informationen schnell verarbeiten, mehrere Aufgaben gleichzeitig bewältigen und Speicher effizient nutzen.
Ein Weg, dies zu erreichen, ist Hardware-Beschleunigung unter Verwendung spezialisierter Geräte wie Grafikprozessoren (GPUs), um Modelle schneller auszuführen. NVIDIA GPUs sind dank ihrer Fähigkeit, niedrige Latenz und hohen Durchsatz zu liefern, besonders bekannt für solche Aufgaben.
Das Ausführen eines Modells auf einer GPU im unveränderten Zustand garantiert jedoch nicht immer eine optimale Leistung. Vision AI Modelle erfordern in der Regel eine Optimierung, um die Fähigkeiten der Hardware voll auszuschöpfen. Um die volle Leistung mit spezifischer Hardware zu erreichen, müssen wir das Modell so kompilieren, dass es den spezifischen Befehlssatz der Hardware verwendet.
TensorRT ist beispielsweise ein Exportformat und eine Optimierungsbibliothek, die von NVIDIA entwickelt wurde, um die Leistung auf High-End-Maschinen zu verbessern. Es nutzt fortschrittliche Techniken, um die Inferenzzeit bei gleichbleibender Genauigkeit erheblich zu reduzieren.

Abb. 1. NVIDIA TensorRT ermöglicht die optimale Ausführung von Modellen auf verschiedenen NVIDIA Geräten.
In diesem Artikel erkunden wir die von Ultralytics unterstützte TensorRT Integration und zeigen dir Schritt für Schritt, wie du dein YOLO11 Modell für eine schnellere, effizientere Bereitstellung auf NVIDIA Hardware exportieren kannst. Fangen wir an!
Link to this sectionEin Überblick über TensorRT#
TensorRT ist ein von NVIDIA entwickeltes Toolkit, das KI Modellen hilft, schneller und effizienter auf NVIDIA GPUs zu laufen. Es ist für reale Anwendungen konzipiert, bei denen es auf Geschwindigkeit und Leistung ankommt, wie zum Beispiel bei selbstfahrenden Autos sowie in der Qualitätskontrolle in der Fertigung und Pharmazie.
TensorRT enthält Tools wie Compiler und Modelloptimierer, die im Hintergrund dafür sorgen, dass deine Modelle mit niedriger Latenz laufen und einen höheren Durchsatz bewältigen können.
Die von Ultralytics unterstützte TensorRT Integration optimiert dein YOLO Modell für eine effizientere Ausführung auf GPUs durch Methoden wie die Reduzierung der Präzision. Dies bezieht sich auf die Verwendung von Formaten mit geringerer Bitbreite, wie 16-Bit-Gleitkommazahlen (FP16) oder 8-Bit-Ganzzahlen (INT8), um Modelldaten darzustellen, was den Speicherverbrauch reduziert und die Berechnung bei minimalen Auswirkungen auf die Genauigkeit beschleunigt.
Zudem werden kompatible neuronale Netzwerkschichten in optimierten TensorRT Modellen verschmolzen (Fused), um den Speicherverbrauch zu senken, was zu einer schnelleren und effizienteren Inferenz führt.

Abb. 2. Ein Blick auf die Layer-Fusion-Technik von TensorRT.
Link to this sectionHauptmerkmale des TensorRT Exportformats#
Bevor wir besprechen, wie du YOLO11 mithilfe der TensorRT Integration exportieren kannst, werfen wir einen Blick auf einige wichtige Merkmale des TensorRT Modellformats:
-
Einfache Framework-Integration: TensorRT unterstützt die direkte Einbindung gängiger KI Frameworks wie PyTorch, Hugging Face und ONNX und bietet eine bis zu 6-fach schnellere Performance. Es unterstützt außerdem MATLAB und ermöglicht die Entwicklung von Hochgeschwindigkeits-KI-Engines auf Plattformen wie Jetson, NVIDIA DRIVE und in Rechenzentren.
-
Skalierbare Bereitstellung mit Triton: Im TensorRT Format optimierte Modelle können mit dem NVIDIA Triton Inference Server skaliert bereitgestellt werden, was die Effizienz durch Funktionen wie Input-Batching, gleichzeitige Modellausführung, Modell-Ensemble-Unterstützung sowie Audio-/Video-Streaming in Echtzeit steigert.
-
Flexibel über Geräte hinweg: Von kleinen Edge-Geräten bis hin zu leistungsstarken Servern funktioniert TensorRT im gesamten NVIDIA Ökosystem und unterstützt Tools wie DeepStream für Video, Riva für Sprach-KI und weitere für Cybersicherheit, Empfehlungssysteme und mehr.
Link to this sectionWie funktioniert die TensorRT Integration?#
Das Exportieren von Ultralytics YOLO Modellen, wie z.B. Ultralytics YOLO11, in das TensorRT Modellformat ist einfach. Gehen wir die beteiligten Schritte gemeinsam durch.
Zuerst kannst du das Ultralytics Python Paket über einen Paketmanager wie „pip“ installieren. Dies erfolgt durch Ausführen des Befehls “pip install ultralytics” in deiner Eingabeaufforderung oder deinem Terminal.
Nach der erfolgreichen Installation des Ultralytics Python Pakets kannst du Modelle für verschiedene Computer Vision Aufgaben wie Objekterkennung, Klassifizierung und Instanzsegmentierung trainieren, testen, feinabstimmen, exportieren und bereitstellen. Falls bei der Installation Schwierigkeiten auftreten, kannst du in unserem Leitfaden für allgemeine Probleme nach Lösungen und Tipps suchen.
Für den nächsten Schritt benötigst du ein NVIDIA Gerät. Verwende den unten stehenden Code-Schnipsel, um YOLO11 zu laden und in das TensorRT Modellformat zu exportieren. Es lädt eine vortrainierte Nano-Variante des YOLO11 Modells (yolo11n.pt) und exportiert diese als TensorRT-Engine-Datei (yolo11n.engine), die für die Bereitstellung auf NVIDIA Geräten bereit ist.
from ultralytics import YOLO
model = YOLO("yolo11n.pt")
model.export(format="engine")Nachdem du dein Modell in das TensorRT Format konvertiert hast, kannst du es für verschiedene Anwendungen bereitstellen.
Das folgende Beispiel zeigt, wie du das exportierte YOLO11-Modell (yolo11n.engine) lädst und eine Inferenz damit ausführst. Inferenz beinhaltet die Nutzung des trainierten Modells, um Vorhersagen für neue Daten zu treffen. In diesem Fall verwenden wir ein Eingangsbild eines Hundes, um das Modell zu testen.
tensorrt_model = YOLO("yolo11n.engine")
results = tensorrt_model("https://images.pexels.com/photos/1254140/pexels-photo-1254140.jpeg?auto=compress&cs=tinysrgb&w=1260&h=750&dpr=2.jpg", save=True)Wenn du diesen Code ausführst, wird das folgende Ergebnisbild im Ordner runs/detect/predict gespeichert.

Abb. 3. Das Ergebnis einer Inferenz mit dem exportierten YOLO11 Modell im TensorRT Format.
Link to this sectionWann solltest du die TensorRT Integration nutzen?#
Das Ultralytics Python Paket unterstützt verschiedene Integrationen, die den Export von YOLO Modellen in verschiedene Formate wie TorchScript, CoreML, ONNX und TensorRT ermöglichen. Wann solltest du dich also für die TensorRT Integration entscheiden?
Hier sind einige Faktoren, die das TensorRT Modellformat von anderen Integrationsoptionen abheben:
-
Kleinere Modellgröße: Der Export eines YOLO Modells in das TensorRT Format mit INT8 Präzision kann die Modellgröße erheblich reduzieren. Die Quantisierung von FP32 auf INT8 kann zu einer 4-fachen Verringerung der Modellgröße führen, was schnellere Downloadzeiten, geringeren Speicherbedarf und einen kleineren Arbeitsspeicher-Fußabdruck während der Bereitstellung ermöglicht.
-
Geringerer Stromverbrauch: Die INT8 Quantisierung reduziert nicht nur die Modellgröße, sondern verringert auch den Stromverbrauch. Operationen mit reduzierter Präzision für in INT8 exportierte YOLO Modelle können weniger Strom verbrauchen als FP32 Modelle, was besonders für batteriebetriebene Geräte wie Drohnen, Smartphones oder Edge-Geräte von Vorteil ist.
-
Schnellere Performance: Die Kombination der effizienten Architektur von YOLO mit der INT8 Optimierung von TensorRT kann die Inferenzgeschwindigkeit verbessern.
Link to this sectionAnwendungen von YOLO11 und dem TensorRT Modellformat#
Ultralytics YOLO Modelle, die in das TensorRT Format exportiert wurden, können in einer Vielzahl von realen Szenarien eingesetzt werden. Diese optimierten Modelle sind besonders nützlich, wenn schnelle und effiziente KI Leistung entscheidend ist. Lass uns einige interessante Beispiele für deren Anwendung erkunden.
Link to this sectionIntelligente Kassen im Einzelhandel#
Eine breite Palette von Aufgaben im Einzelhandel, wie das Scannen von Barcodes, das Wiegen von Produkten oder das Verpacken von Artikeln, wird immer noch manuell vom Personal erledigt. Das alleinige Verlassen auf Mitarbeiter kann jedoch den Betrieb verlangsamen und bei Kunden zu Frustration führen, besonders an der Kasse. Lange Warteschlangen sind sowohl für Kunden als auch für Ladenbesitzer unangenehm. Intelligente Selbstbedienungskassen sind eine großartige Lösung für dieses Problem.
Diese Kassen nutzen Computer Vision und GPUs, um den Prozess zu beschleunigen und Wartezeiten zu verkürzen. Computer Vision ermöglicht es diesen Systemen, ihre Umgebung durch Aufgaben wie Objekterkennung zu sehen und zu verstehen. Fortschrittliche Modelle wie YOLO11 können, wenn sie mit Tools wie TensorRT optimiert werden, auf GPU-Geräten viel schneller ausgeführt werden.
Diese exportierten Modelle eignen sich hervorragend für intelligente Einzelhandels-Setups, die kompakte, aber leistungsstarke Hardware-Geräte wie den NVIDIA Jetson Nano verwenden, welcher speziell für Edge-KI-Anwendungen entwickelt wurde.

Abb. 4. Ein Beispiel für eine intelligente Kasse.
Link to this sectionAutomatisierte Fehlererkennung in der Fertigung#
Ein Computer Vision Modell wie YOLO11 kann individuell trainiert werden, um fehlerhafte Produkte in der Fertigungsindustrie zu erkennen. Einmal trainiert, kann das Modell für den Einsatz in Anlagen, die mit leistungsstarken KI Systemen ausgestattet sind, in das TensorRT Format exportiert werden.
Während sich Produkte auf Förderbändern bewegen, nehmen Kameras Bilder auf, und das YOLO11 Modell, das im TensorRT Format läuft, analysiert diese in Echtzeit, um Defekte zu erkennen. Dieses Setup ermöglicht es Unternehmen, Probleme schnell und präzise zu identifizieren, was Fehler reduziert und die Effizienz verbessert.
Ähnlich nutzen Branchen wie die Pharmazie solche Systeme, um Defekte in medizinischen Verpackungen zu identifizieren. Tatsächlich wird der weltweite Markt für intelligente Fehlererkennungssysteme bis 2026 voraussichtlich auf 5 Milliarden US-Dollar anwachsen.

Abb. 5. Nutzung von YOLO zur Fehlererkennung in der Pharmaindustrie.
Link to this sectionÜberlegungen bei der Nutzung von TensorRT#
Obwohl die TensorRT Integration viele Vorteile wie schnellere Inferenzgeschwindigkeiten und reduzierte Latenz bietet, sind hier einige Einschränkungen zu beachten:
-
Leichter Genauigkeitsverlust: Wenn du dein Modell im TensorRT Format exportierst, ist das exportierte Modell möglicherweise nicht mehr so präzise wie das Original. Leistungskennzahlen wie Präzision, Recall und die Genauigkeit der Objekterkennung (mAP-Werte) könnten leicht sinken. Dies kann durch die Verwendung eines repräsentativen Datensatzes während der Quantisierung abgemildert werden.
-
Erhöhte Komplexität beim Debugging: Die durch TensorRT vorgenommenen Optimierungen können es schwieriger machen, Fehler nachzuvollziehen oder unerwartetes Verhalten zu verstehen, insbesondere beim Vergleich der Ergebnisse mit dem ursprünglichen Modell.
-
Batch-Size-Sensitivität: Die Leistungssteigerungen durch TensorRT sind bei größeren Batch-Größen ausgeprägter. Bei Anwendungen, die einzelne Bilder oder kleine Batches verarbeiten, sind die Performance-Verbesserungen unter Umständen weniger signifikant.
Link to this sectionWichtige Erkenntnisse#
Der Export von Ultralytics YOLO Modellen in das TensorRT Format macht sie deutlich schneller und effizienter, was sie ideal für Echtzeit-Aufgaben macht, wie die Fehlererkennung in Fabriken, den Betrieb von Smart-Checkout-Systemen oder die Überwachung belebter städtischer Gebiete.
Diese Optimierung hilft den Modellen, auf NVIDIA GPUs besser zu funktionieren, indem Vorhersagen beschleunigt sowie Speicher- und Stromverbrauch reduziert werden. Trotz einiger Einschränkungen macht der Leistungsschub die TensorRT Integration zu einer hervorragenden Wahl für alle, die Hochgeschwindigkeits-Computer-Vision-Systeme auf NVIDIA Hardware aufbauen.
Möchtest du mehr über KI erfahren? Erkunde unser GitHub Repository, vernetze dich mit unserer Community und prüfe unsere Lizenzoptionen, um dein Computer Vision Projekt zu starten. Auf unseren Lösungsseiten findest du weitere Informationen zu Innovationen wie KI in der Fertigung und Computer Vision in der Logistikbranche.






