Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

TensorRT

Otimize modelos de deep learning com TensorRT para uma inferência mais rápida e eficiente em GPUs NVIDIA. Alcance desempenho em tempo real com YOLO e aplicações de IA.

TensorRT é um otimizador de inferência de aprendizado profundo de alto desempenho e biblioteca de tempo de execução da NVIDIA. Ele é projetado especificamente para maximizar o desempenho de redes neurais (NN) treinadas em Unidades de Processamento Gráfico (GPUs) da NVIDIA. Depois que um modelo é treinado usando uma estrutura como PyTorch ou TensorFlow, o TensorRT pega esse modelo e aplica inúmeras otimizações para prepará-lo para a implementação. O resultado é um mecanismo de tempo de execução altamente eficiente que pode reduzir significativamente a latência de inferência e melhorar a taxa de transferência, tornando-o ideal para aplicações que exigem inferência em tempo real.

Como Funciona o TensorRT

O TensorRT alcança seus ganhos de desempenho por meio de um processo de otimização de várias etapas que transforma um modelo treinado padrão em um mecanismo de inferência otimizado. Este processo é amplamente automatizado e adaptado à arquitetura específica da GPU NVIDIA na qual será implementado. As principais técnicas de otimização incluem:

  • Otimização de Grafos: O TensorRT analisa o modelo treinado e realiza otimizações de grafos, como eliminar camadas não utilizadas e fundir camadas verticalmente (combinando camadas sequenciais) e horizontalmente (combinando camadas paralelas). Isso reduz o número de operações e a sobrecarga de memória.
  • Calibração de Precisão: Ele suporta inferência de menor precisão, como precisão mista (FP16) e INT8. Ao converter os pesos do modelo de ponto flutuante de 32 bits (FP32) para precisões mais baixas através da quantização do modelo, o TensorRT reduz drasticamente o uso de memória e os requisitos computacionais com um impacto mínimo na precisão.
  • Ajuste Automático de Kernel: O TensorRT seleciona em uma vasta biblioteca de kernels de GPU otimizados para cada operação ou cria seus próprios kernels especificamente ajustados para a GPU de destino. Isso garante que cada cálculo seja realizado da forma mais eficiente possível no hardware.
  • Otimização da Memória de Tensores: Otimiza o uso da memória reutilizando a memória para tensores durante toda a execução do modelo, reduzindo a ocupação da memória e melhorando o desempenho.

Os modelos Ultralytics YOLO podem ser facilmente exportados para o formato TensorRT, permitindo que os desenvolvedores aproveitem essas otimizações para suas aplicações de visão computacional (CV).

Aplicações no Mundo Real

O TensorRT é crucial para implementar IA de alto desempenho em ambientes com restrição de tempo e recursos.

  1. Veículos Autônomos: Em carros autônomos, os sistemas de percepção devem processar dados de câmeras e sensores em tempo real para detectar pedestres, outros veículos e obstáculos. Modelos como o Ultralytics YOLO11 otimizado com TensorRT podem realizar detecção de objetos com latência extremamente baixa, o que é fundamental para tomar decisões de direção seguras.
  2. Manufatura Inteligente: Em um chão de fábrica, a IA na manufatura é usada para controle de qualidade automatizado. Uma câmera captura imagens de produtos em uma esteira transportadora, e um modelo de visão os analisa em busca de defeitos. Ao usar o TensorRT, esses sistemas podem acompanhar as linhas de produção de alta velocidade, identificando problemas instantaneamente e melhorando a eficiência geral.

TensorRT vs. Tecnologias Relacionadas

Embora o TensorRT seja um motor de inferência poderoso, é importante entender como ele difere de outras ferramentas no ecossistema de IA:

  • Frameworks de Aprendizado Profundo: Frameworks como PyTorch e TensorFlow são principalmente para treinar modelos. Embora tenham suas próprias capacidades de inferência, eles não são tão otimizados para implantação quanto um runtime especializado como o TensorRT.
  • ONNX Runtime: O formato Open Neural Network Exchange (ONNX) fornece uma maneira de representar modelos de forma interoperável. O ONNX Runtime pode executar modelos em várias plataformas de hardware, incluindo GPUs NVIDIA (onde pode usar o TensorRT como um provedor de execução). No entanto, a integração direta com o TensorRT geralmente produz melhor desempenho no hardware NVIDIA devido às suas otimizações específicas de hardware.
  • Intel OpenVINO: OpenVINO é semelhante ao TensorRT, mas é otimizado para hardware Intel (CPUs, iGPUs, VPUs). Ele serve ao mesmo propósito de acelerar a inferência, mas é feito sob medida para um ecossistema de hardware diferente.

A principal vantagem do TensorRT é sua profunda integração com o ecossistema NVIDIA, desde GPUs até bibliotecas CUDA, permitindo um desempenho incomparável para modelos implementados em plataformas NVIDIA, como frequentemente demonstrado em benchmarks do MLPerf. O gerenciamento da implementação de modelos pode ser ainda mais simplificado com plataformas MLOps como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência