Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

TensorRT

Оптимизируйте модели глубокого обучения с помощью TensorRT для более быстрого и эффективного вывода на графических процессорах NVIDIA. Добейтесь производительности в реальном времени с помощью YOLO и AI-приложений.

TensorRT — это высокопроизводительный оптимизатор логического вывода глубокого обучения и библиотека времени выполнения от NVIDIA. Он специально разработан для максимальной производительности обученных нейронных сетей (NN) на графических процессорах (GPU) NVIDIA. После того как модель обучена с использованием такого фреймворка, как PyTorch или TensorFlow, TensorRT берет эту модель и применяет многочисленные оптимизации, чтобы подготовить ее к развертыванию. В результате получается высокоэффективный механизм времени выполнения, который может значительно снизить задержку логического вывода и повысить пропускную способность, что делает его идеальным для приложений, требующих логического вывода в реальном времени.

Как работает TensorRT

TensorRT достигает повышения производительности за счет многоэтапного процесса оптимизации, который преобразует стандартную обученную модель в оптимизированный механизм логического вывода. Этот процесс в значительной степени автоматизирован и адаптирован к конкретной архитектуре графического процессора NVIDIA, на которой он будет развернут. Ключевые методы оптимизации включают:

  • Graph Optimization (оптимизация графа): TensorRT анализирует обученную модель и выполняет оптимизацию графа, такую как удаление неиспользуемых слоев и объединение слоев по вертикали (объединение последовательных слоев) и по горизонтали (объединение параллельных слоев). Это уменьшает количество операций и накладные расходы памяти.
  • Калибровка точности: Она поддерживает вывод с пониженной точностью, такой как смешанная точность (FP16) и INT8. Преобразуя веса модели из 32-битного формата с плавающей запятой (FP32) в более низкую точность посредством квантования модели, TensorRT значительно снижает использование памяти и вычислительные требования с минимальным влиянием на точность.
  • Автонастройка ядра: TensorRT выбирает из обширной библиотеки оптимизированных ядер GPU для каждой операции или создает свои собственные, специально настроенные ядра для целевого GPU. Это гарантирует, что каждое вычисление выполняется максимально эффективно на аппаратном обеспечении.
  • Оптимизация памяти тензоров: Она оптимизирует использование памяти за счет повторного использования памяти для тензоров на протяжении всего выполнения модели, уменьшая объем занимаемой памяти и повышая производительность.

Модели Ultralytics YOLO можно легко экспортировать в формат TensorRT, что позволяет разработчикам использовать эти оптимизации для своих приложений компьютерного зрения (CV).

Применение в реальном мире

TensorRT играет решающую роль в развертывании высокопроизводительного ИИ в средах с ограниченным временем и ресурсами.

  1. Автономные транспортные средства: В автомобилях с автоматическим управлением системы восприятия должны обрабатывать данные с камер и датчиков в режиме реального времени для обнаружения пешеходов, других транспортных средств и препятствий. Модели, такие как Ultralytics YOLO11, оптимизированные с помощью TensorRT, могут выполнять обнаружение объектов с чрезвычайно низкой задержкой, что имеет решающее значение для принятия безопасных решений при вождении.
  2. Интеллектуальное производство: В цехах заводов ИИ в производстве используется для автоматизированного контроля качества. Камера снимает изображения продукции на конвейерной ленте, а модель машинного зрения анализирует их на наличие дефектов. Благодаря использованию TensorRT эти системы могут не отставать от высокоскоростных производственных линий, мгновенно выявляя проблемы и повышая общую эффективность.

TensorRT в сравнении со смежными технологиями

Хотя TensorRT является мощным движком логического вывода, важно понимать, чем он отличается от других инструментов в экосистеме AI:

  • Фреймворки глубокого обучения: Фреймворки, такие как PyTorch и TensorFlow, в основном предназначены для обучения моделей. Хотя у них есть свои собственные возможности для инференса, они не так оптимизированы для развертывания, как специализированные среды выполнения, такие как TensorRT.
  • ONNX Runtime: Формат Open Neural Network Exchange (ONNX) предоставляет способ интероперабельного представления моделей. ONNX Runtime может выполнять модели на различных аппаратных платформах, включая графические процессоры NVIDIA (где он может использовать TensorRT в качестве провайдера исполнения). Однако прямая интеграция с TensorRT часто обеспечивает лучшую производительность на оборудовании NVIDIA благодаря его аппаратным оптимизациям.
  • Intel OpenVINO: OpenVINO аналогичен TensorRT, но оптимизирован для оборудования Intel (ЦП, iGPU, VPU). Он служит той же цели ускорения инференса, но адаптирован для другой аппаратной экосистемы.

Основное преимущество TensorRT заключается в его глубокой интеграции с экосистемой NVIDIA, от графических процессоров до библиотек CUDA, что обеспечивает беспрецедентную производительность моделей, развернутых на платформах NVIDIA, как это часто демонстрируется в бенчмарках MLPerf. Управление развертыванием моделей можно дополнительно оптимизировать с помощью платформ MLOps, таких как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена