Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

TensorRT

Explore como TensorRT modelos de deep learning para NVIDIA . Aprenda a exportar Ultralytics para TensorRT inferência de baixa latência e alta velocidade hoje mesmo.

TensorRT um kit de desenvolvimento de software (SDK) de inferência de aprendizagem profunda de alto desempenho desenvolvido pela NVIDIA. Ele foi projetado para otimizar modelos de redes neurais para implementação, proporcionando baixa latência de inferência e alto rendimento para aplicações de aprendizagem profunda . Ao atuar como um compilador de otimização, TensorRT redes treinadas de estruturas populares como PyTorch e TensorFlow reestrutura-as para executar com eficiência emGPUs NVIDIA . Essa capacidade é crucial para executar modelos complexos de IA em ambientes de produção onde velocidade e eficiência são fundamentais.

Como o TensorRT modelos

A função principal do TensorRT converter uma rede neural treinada num «motor» otimizado, especificamente ajustado para o hardware de destino. Ele consegue isso através de várias técnicas avançadas:

  • Fusão de camadas: O otimizador combina várias camadas de uma rede neural em um único kernel, reduzindo a sobrecarga de acesso à memória e melhorando a velocidade de execução.
  • Calibração de precisão: TensorRT modos de precisão reduzida, como precisão mista (FP16) e quantização inteira (INT8). Ao reduzir o número de bits usados para representar números — muitas vezes com perda mínima de precisão — os programadores podem acelerar significativamente as operações matemáticas e reduzir o uso de memória. Essa é uma forma de quantização de modelo.
  • Ajuste automático do kernel: O software seleciona automaticamente as melhores camadas de dados e algoritmos para GPU específica GPU que está a ser utilizada, garantindo a utilização máxima das capacidades de processamento paralelo do hardware através da CUDA.

Aplicações no Mundo Real

Devido à sua capacidade de processar grandes quantidades de dados com o mínimo de atraso, TensorRT amplamente adotado em setores que dependem de visão computacional e tarefas complexas de IA , onde o tempo é fundamental.

  1. Sistemas autônomos: No campo da IA automotiva, os carros autônomos precisam processar imagens de vídeo de várias câmaras para detect , sinais e obstáculos instantaneamente. Usando TensorRT, modelos de percepção, como redes de detecção de objetos, podem analisar quadros em milissegundos, permitindo que o sistema de controle do veículo tome decisões críticas de segurança sem atrasos.
  2. Automação industrial: as fábricas modernas utilizam IA na produção para inspeção ótica automatizada . Câmaras de alta velocidade capturam imagens de produtos em linhas de montagem, e modelos TensorRT identificam defeitos ou anomalias em tempo real. Isso garante que o controlo de qualidade acompanhe os ambientes de produção de alta velocidade , muitas vezes implantados em dispositivos de IA de ponta, como a plataforma NVIDIA , diretamente no chão de fábrica.

Usando TensorRT Ultralytics YOLO

A integração do TensorRT no seu fluxo de trabalho é simples com as modernas ferramentas de IA. O ultralytics O pacote fornece um método simples para converter PyTorch padrão em TensorRT . Isso permite que os utilizadores aproveitem a arquitetura de última geração do Ultralytics YOLO26 com a aceleração de hardware NVIDIA . Para equipas que pretendem gerir os seus conjuntos de dados e pipelines de formação antes da exportação, o Plataforma Ultralytics oferece um ambiente abrangente para preparar modelos para essa implementação de alto desempenho.

O exemplo a seguir demonstra como exportar um modelo YOLO26 para um ficheiro TensorRT (.engine) e utilizá-lo para inferência em tempo real:

from ultralytics import YOLO

# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")

# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")

# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")

# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")

TensorRT . ONNX . Estruturas de Treinamento

É importante distinguir TensorRT outros termos frequentemente ouvidos no cenário de implementação de modelos:

  • Vs.TensorFlow: Frameworks como PyTorch projetados principalmente para treinamento e pesquisa de modelos, oferecendo flexibilidade e facilidade de depuração. TensorRT um mecanismo de inferência projetado exclusivamente para executar modelos treinados o mais rápido possível. Ele não é usado para treinamento.
  • Vs. ONNX: O ONNX (Open Neural Network Exchange) atua como uma ponte intermediária entre frameworks. Enquanto ONNX interoperabilidade (por exemplo, movendo um modelo do PyTorch outra plataforma), TensorRT na otimização específica do hardware. Frequentemente, um modelo é convertido ONNX para ONNX e, em seguida, analisado pelo TensorRT gerar o mecanismo final.

Para os programadores que pretendem maximizar o desempenho dos seus agentes de IA ou sistemas de visão, compreender a transição de uma estrutura de treino para um tempo de execução otimizado como TensorRT um passo fundamental no MLOps profissional .

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora