Optimise les modèles d'apprentissage profond avec TensorRT pour une inférence plus rapide et efficace sur les GPU NVIDIA . Obtenir des performances en temps réel avec YOLO et les applications d'IA.
TensorRT est un optimiseur d'inférence et une bibliothèque d'exécution de Deep Learning (DL) très performants développés par. NVIDIA. Il est conçu spécifiquement pour maximiser le débit d'inférence et minimiser la latence d'inférence pour les applications d'apprentissage profond fonctionnant sur les GPUNVIDIA . TensorRT prend des modèles de réseaux neuronaux formés à partir de divers frameworks et applique de nombreuses optimisations pour générer un moteur d'exécution hautement optimisé pour le déploiement. Ce processus est crucial pour déployer efficacement les modèles dans les environnements de production, en particulier lorsque la vitesse et la réactivité sont essentielles.
TensorRT permet d'améliorer considérablement les performances grâce à plusieurs techniques sophistiquées :
Le flux de travail consiste généralement à prendre un modèle entraîné (par exemple, à partir de PyTorch ou de TensorFlowsouvent par le biais d'un format intermédiaire comme ONNX) et l'introduire dans l'optimiseur TensorRT . TensorRT analyse le modèle, effectue des optimisations de graphe et des optimisations spécifiques à la cible en fonction de la précision spécifiée et du GPU cible, et génère finalement un plan d'inférence optimisé, connu sous le nom de moteur TensorRT . Ce fichier de moteur peut ensuite être déployé pour une inférence rapide.
TensorRT est très pertinent pour la phase de déploiement des modèles du cycle de vie de l'apprentissage automatique. Sa capacité à accélérer considérablement l'inférence le rend indispensable pour les applications nécessitant une inférence en temps réel, telles que la détection d'objets avec des modèles comme Ultralytics YOLOla segmentation d'images et le traitement du langage naturel. Il s'agit d'un composant clé de la pile logicielle de NVIDIA , aux côtés d'outils tels que CUDAUltralytics YOLO permet aux développeurs d'exploiter tout le potentiel du matériel NVIDIA , qu'il s'agisse de puissants GPU pour centres de données ou de modules NVIDIA Jetson économes en énergie pour l'Edge AI. Ultralytics offre une intégration transparente, permettant aux utilisateurs d'exporter les modèles YOLO au format TensorRT pour un déploiement optimisé, souvent utilisé avec des plateformes telles que le serveur d'inférenceTriton .
TensorRT est largement utilisé dans divers secteurs d'activité où une inférence rapide et efficace de l'IA est nécessaire :
Alors que TensorRT se concentre sur l'optimisation de l'inférence spécifiquement pour les GPU NVIDIA , d'autres outils existent dans l'écosystème :
La principale différence de TensorRT est son intégration profonde avec le matériel NVIDIA et ses stratégies d'optimisation agressives adaptées aux GPU, qui permettent souvent d'obtenir les meilleures performances (voir les benchmarks MLPerf) sur les plateformes NVIDIA par rapport à des runtimes plus généralistes. La gestion des modèles et des déploiements peut être rationalisée en utilisant des plateformes comme Ultralytics HUB.