Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

TensorRT

قم بتحسين نماذج التعلم العميق باستخدام TensorRT للحصول على استدلال أسرع وفعال على وحدات معالجة الرسومات NVIDIA . تحقيق أداء في الوقت الفعلي مع YOLO وتطبيقات الذكاء الاصطناعي.

TensorRT is a high-performance deep learning inference software development kit (SDK) developed by NVIDIA. It is designed to optimize neural network models for deployment, delivering low inference latency and high throughput for deep learning applications. By acting as an optimization compiler, TensorRT takes trained networks from popular frameworks like PyTorch and TensorFlow and restructures them to execute efficiently on NVIDIA GPUs. This capability is crucial for running complex AI models in production environments where speed and efficiency are paramount.

How TensorRT Optimizes Models

The core function of TensorRT is to convert a trained neural network into an optimized "engine" specifically tuned for the target hardware. It achieves this through several advanced techniques:

  • Layer Fusion: The optimizer combines multiple layers of a neural network into a single kernel, reducing memory access overhead and improving execution speed.
  • Precision Calibration: TensorRT supports reduced precision modes, such as mixed precision (FP16) and integer quantization (INT8). By reducing the number of bits used to represent numbers—often with minimal accuracy loss—developers can significantly accelerate math operations and reduce memory usage. This is a form of model quantization.
  • Kernel Auto-Tuning: The software automatically selects the best data layers and algorithms for the specific GPU architecture being used, ensuring maximum utilization of the hardware's parallel processing capabilities via CUDA.

تطبيقات واقعية

نظرًا لقدرته على معالجة كميات هائلة من البيانات بأقل تأخير ممكن، TensorRT استخدام TensorRT على نطاق واسع في الصناعات التي تعتمد على الرؤية الحاسوبية ومهام الذكاء الاصطناعي المعقدة حيث يعد التوقيت أمرًا بالغ الأهمية.

  1. الأنظمة المستقلة: في مجال الذكاء الاصطناعي في السيارات، يجب على السيارات ذاتية القيادة معالجة مقاطع الفيديو الواردة من عدة كاميرات detect واللافتات والعوائق على الفور. باستخدام TensorRT يمكن لنماذج الإدراك مثل شبكات الكشف عن الأجسام تحليل الإطارات في أجزاء من الثانية، مما يسمح لنظام التحكم في السيارة باتخاذ قرارات حاسمة تتعلق بالسلامة دون تأخير.
  2. الأتمتة الصناعية: تستخدم المصانع الحديثة الذكاء الاصطناعي في التصنيع من أجل الفحص البصري الآلي. تلتقط الكاميرات عالية السرعة صورًا للمنتجات على خطوط التجميع، وتحدد النماذج TensorRT العيوب أو الحالات الشاذة في الوقت الفعلي. وهذا يضمن مواكبة مراقبة الجودة لبيئات الإنتاج عالية السرعة ، وغالبًا ما يتم نشرها على أجهزة الذكاء الاصطناعي المتطورة مثل منصة NVIDIA مباشرة في أرضية المصنع.

استخدام TensorRT Ultralytics YOLO

يُعد دمج TensorRT في سير عملك أمراً سهلاً ومباشراً باستخدام أدوات الذكاء الاصطناعي الحديثة. إن ultralytics package provides a seamless method to convert standard PyTorch models into TensorRT engines. This allows users to leverage the state-of-the-art architecture of Ultralytics YOLO26 with the hardware acceleration of NVIDIA GPUs. For teams looking to manage their datasets and training pipelines before export, the منصة Ultralytics offers a comprehensive environment to prepare models for such high-performance deployment.

يوضح المثال التالي كيفية تصدير نموذج YOLO26 إلى ملف TensorRT (.engine) و استخدمه لـ الاستدلال في الوقت الحقيقي:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT vs. ONNX vs. Training Frameworks

It is important to distinguish TensorRT from other terms often heard in the model deployment landscape:

  • Vs. PyTorch/TensorFlow: Frameworks like PyTorch are primarily designed for model training and research, offering flexibility and ease of debugging. TensorRT is an inference engine designed solely for executing trained models as fast as possible. It is not used for training.
  • Vs. ONNX: The ONNX (Open Neural Network Exchange) format acts as an intermediary bridge between frameworks. While ONNX provides interoperability (e.g., moving a model from PyTorch to another platform), TensorRT focuses on hardware-specific optimization. Often, a model is converted to ONNX first, and then parsed by TensorRT to generate the final engine.

For developers aiming to maximize the performance of their AI agents or vision systems, understanding the transition from a training framework to an optimized runtime like TensorRT is a key step in professional MLOps.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن