Explore como TensorRT modelos de deep learning para NVIDIA . Aprenda a exportar Ultralytics para TensorRT inferência de baixa latência e alta velocidade hoje mesmo.
TensorRT um kit de desenvolvimento de software (SDK) de inferência de aprendizagem profunda de alto desempenho desenvolvido pela NVIDIA. Ele foi projetado para otimizar modelos de redes neurais para implementação, proporcionando baixa latência de inferência e alto rendimento para aplicações de aprendizagem profunda . Ao atuar como um compilador de otimização, TensorRT redes treinadas de estruturas populares como PyTorch e TensorFlow reestrutura-as para executar com eficiência emGPUs NVIDIA . Essa capacidade é crucial para executar modelos complexos de IA em ambientes de produção onde velocidade e eficiência são fundamentais.
A função principal do TensorRT converter uma rede neural treinada num «motor» otimizado, especificamente ajustado para o hardware de destino. Ele consegue isso através de várias técnicas avançadas:
Devido à sua capacidade de processar grandes quantidades de dados com o mínimo de atraso, TensorRT amplamente adotado em setores que dependem de visão computacional e tarefas complexas de IA , onde o tempo é fundamental.
A integração do TensorRT no seu fluxo de trabalho é simples com as modernas ferramentas de IA. O ultralytics O pacote
fornece um método simples para converter PyTorch padrão em TensorRT . Isso permite que os utilizadores aproveitem a
arquitetura de última geração do Ultralytics YOLO26 com a
aceleração de hardware NVIDIA . Para equipas que pretendem gerir os seus conjuntos de dados e pipelines de formação antes da exportação,
o Plataforma Ultralytics oferece um ambiente abrangente para preparar
modelos para essa implementação de alto desempenho.
O exemplo a seguir demonstra como exportar um modelo YOLO26 para um ficheiro TensorRT (.engine) e
utilizá-lo para inferência em tempo real:
from ultralytics import YOLO
# Load the latest stable YOLO26 model (nano size)
model = YOLO("yolo26n.pt")
# Export the model to TensorRT format (creates 'yolo26n.engine')
# This step optimizes the computational graph for your specific GPU
model.export(format="engine")
# Load the optimized TensorRT engine for high-speed inference
trt_model = YOLO("yolo26n.engine")
# Run inference on an image source
results = trt_model("https://ultralytics.com/images/bus.jpg")
É importante distinguir TensorRT outros termos frequentemente ouvidos no cenário de implementação de modelos:
Para os programadores que pretendem maximizar o desempenho dos seus agentes de IA ou sistemas de visão, compreender a transição de uma estrutura de treino para um tempo de execução otimizado como TensorRT um passo fundamental no MLOps profissional .