용어집

TensorRT

NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.

TensorRT 다음에서 개발한 고성능 소프트웨어 개발 키트(SDK)입니다. NVIDIA 딥 러닝 모델 최적화 및 실행을 위해 최적화하고 실행하기 위해 특별히 개발된 고성능 소프트웨어 개발 키트입니다. 이 키트는 전문 추론 엔진으로 작동하며 학습된 신경망을 가져와 NVIDIA 그래픽 처리 장치(GPU)에서 최대한 효율적으로 실행되도록 재구성합니다. 다음을 통해 계산 그래프를 간소화하고 메모리 사용량을 관리함으로써 TensorRT 추론 대기 시간을 크게 줄이고 추론 지연 시간을 크게 줄이고 처리량을 증가시킵니다, 즉각적인 실시간 응답이 필요한 애플리케이션을 구축하는 개발자에게 필수적인 도구입니다.

TensorRT 성능을 최적화하는 방법

TensorRT 주요 목표는 유연한 프레임워크에서 학습된 모델과 배포된 모델 간의 격차를 해소하는 것입니다. 속도를 높이는 것입니다. 몇 가지 정교한 최적화 기법을 통해 이를 달성합니다:

레이어 융합 및 그래프 최적화: TensorRT 네트워크 아키텍처를 분석하여 여러 개의 레이어를 단일 작업으로 융합합니다. 예를 들어 컨볼루션 레이어와 바이어스 및 활성화 단계를 결합할 수 있습니다. 이렇게 연산 수를 줄이면 GPU 커널을 실행하는 데 드는 오버헤드가 최소화됩니다.
정밀 보정: 성능을 더욱 가속화하기 위해 TensorRT 다음을 지원합니다. 모델 양자화를 지원합니다. 이 프로세스는 모델 가중치를 모델 가중치를 표준 32비트 부동 소수점(FP32)에서 다음과 같은 낮은 정밀도 형식으로 변환합니다. 혼합 정밀도 (FP16) 또는 8비트 정수(INT8)와 같은 낮은 정밀도 형식으로 변환합니다. 이렇게 하면 메모리 대역폭 사용량을 대폭 줄이면서도 높은 정확도를 유지합니다.
커널 자동 튜닝: GPU 아키텍처마다 수학적 연산을 처리하는 방식이 다릅니다. TensorRT 최적화된 커널의 방대한 라이브러리에서 최적의 데이터 레이어와 알고리즘을 자동으로 선택합니다, 모델이 특정 대상 하드웨어에서 최적으로 실행되도록 보장합니다. NVIDIA Jetson 또는 데이터센터 A100.
동적 Tensor 메모리: SDK는 동시에 필요하지 않은 텐서(데이터 컨테이너)를 위해 동시에 필요하지 않은 메모리를 재사용하여 메모리 할당을 최적화하여 모델 배포 중 메모리 공간을 효과적으로 줄입니다.

TensorRT 실제 적용 사례

최소한의 지연으로 방대한 양의 데이터를 처리할 수 있기 때문에 TensorRT 컴퓨터 비전과 복잡한 AI 작업에 의존하는 산업에서 널리 채택되고 있습니다. 컴퓨터 비전과 복잡한 AI 작업에 의존하는 산업에서 널리 채택되고 있습니다.

자율 주행 차량: 다음과 같은 분야에서 자율 주행 자동차의 AI는 다음을 수행해야 합니다. 여러 카메라의 비디오 피드를 처리하여 보행자, 표지판, 장애물을 즉시 detect 합니다. TensorRT 사용하면 물체 감지 네트워크와 같은 인식 모델 과 같은 인식 모델은 밀리초 단위로 프레임을 분석할 수 있으므로 차량의 제어 시스템이 지연 없이 안전에 중요한 결정을 내릴 수 있습니다. 지연 없이
스마트 제조: 현대 공장은 다음을 활용합니다. 자동화된 광학 검사를 위한 제조 분야의 검사에 AI를 활용합니다. 고속 카메라가 조립 라인에서 제품의 이미지를 캡처하고, TensorRT 모델이 실시간으로 결함이나 이상을 실시간으로 식별합니다. 이를 통해 품질 관리가 고속 생산에 보조를 맞출 수 있습니다. 고속 생산 환경과 보조를 맞출 수 있습니다. 배포할 수 있습니다.

Ultralytics YOLO11 함께 TensorRT 사용

최신 AI 도구를 사용하면 워크플로에 TensorRT 간편하게 통합할 수 있습니다. 그리고 ultralytics 패키지 는 표준을 변환하는 원활한 방법을 제공합니다. PyTorch 모델을 TensorRT 엔진으로 변환합니다. 이를 통해 사용자는 다음과 같은 이점을 누릴 수 있습니다. 최첨단 아키텍처를 활용할 수 있습니다. Ultralytics YOLO11 NVIDIA 하드웨어 가속 GPU.

다음 예제는 YOLO11 모델을 TensorRT 엔진 파일로 내보내는 방법을 보여줍니다(.engine) 및 를 추론에 사용합니다:

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT format (creates 'yolo11n.engine')
# This step optimizes the model for the specific GPU currently in use
model.export(format="engine")

# Load the optimized TensorRT model for high-speed inference
tensorrt_model = YOLO("yolo11n.engine")
results = tensorrt_model("https://ultralytics.com/images/bus.jpg")

TensorRT 다른 추론 기술 비교

머신 러닝 에코시스템의 다른 도구와 TensorRT 구별하는 것이 중요합니다.

TensorRT 트레이닝 프레임워크 비교: PyTorch 같은 라이브러리와 TensorFlow 와 같은 라이브러리는 주로 유연성과 디버깅의 용이성을 우선시하는 모델 학습을 위해 설계되었습니다. TensorRT 엄밀히 말해 추론 전용이며, 특정 하드웨어에서 원시 속도와 효율성을 우선시합니다.
TensorRT ONNX 런타임 비교: 비교 ONNX (개방형 신경망 교환) 형식은 다양한 플랫폼 간의 상호 운용성을 위해 설계되었습니다. 반면 ONNX 런타임은 다양한 하드웨어에서 실행되는 다목적 엔진인 반면, TensorRT 는 NVIDIA GPU 전용으로 더 심층적인 하드웨어별 최적화를 제공하며, 종종 일반 러너보다 일반 러너보다 높은 성능을 제공합니다.
TensorRT OpenVINO: TensorRT NVIDIA 하드웨어에 최적화된 방식과 유사하게, OpenVINO OpenVINO 툴킷은 인텔 프로세서(CPU 및 통합 GPU)에서의 추론을 가속화하도록 설계되었습니다. 둘 중 어떤 것을 선택할지는 전적으로 배포 환경에 따라 달라집니다. 하드웨어.

확장 가능한 클라우드 배포의 경우, TensorRT 엔진은 모델 버전을 관리하는 모델 버전을 관리하고 동시 요청을 효율적으로 처리하는 모델 버전을 관리하고 동시 요청을 효율적으로 처리합니다.

TensorRT

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

TensorRT 성능을 최적화하는 방법

TensorRT 실제 적용 사례

Ultralytics YOLO11 함께 TensorRT 사용

TensorRT 다른 추론 기술 비교

이 카테고리에서 더 읽어보기

인간이 개입하는 주석 작업이 핵심인 이유 이해하기

데이터셋 증류란 무엇인가? 간략한 개요

오클리 메타 AI 안경은 비전 AI로 안경의 개념을 재정의하고 있습니다

Ultralytics 커뮤니티 가입