용어집

TensorRT

NVIDIA GPU에서 더 빠르고 효율적인 추론을 위해 TensorRT로 딥 러닝 모델을 최적화하세요. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.

TensorRT는 NVIDIA의 고성능 딥 러닝 추론 최적화 및 런타임 라이브러리입니다. 특히 NVIDIA GPU(그래픽 처리 장치)에서 훈련된 신경망(NN) 의 성능을 극대화하도록 설계되었습니다. PyTorch 또는 TensorFlow와 같은 프레임워크를 사용해 모델을 훈련한 후, TensorRT는 해당 모델을 가져와 수많은 최적화를 적용하여 배포를 준비합니다. 그 결과, 추론 대기 시간을 크게 줄이고 처리량을 향상시킬 수 있는 매우 효율적인 런타임 엔진이 탄생하여 실시간 추론이 필요한 애플리케이션에 이상적입니다.

TensorRT 작동 방식

TensorRT는 표준 훈련 모델을 간소화된 추론 엔진으로 변환하는 다단계 최적화 프로세스를 통해 성능 향상을 달성합니다. 이 프로세스는 대부분 자동화되어 있으며 배포될 특정 NVIDIA GPU 아키텍처에 맞게 조정됩니다. 주요 최적화 기법은 다음과 같습니다:

  • 그래프 최적화: TensorRT는 학습된 모델을 구문 분석하고 사용하지 않는 레이어를 제거하고 수직(순차 레이어 결합) 및 수평(병렬 레이어 결합)으로 레이어를 융합하는 등의 그래프 최적화를 수행합니다. 이렇게 하면 작업 횟수와 메모리 오버헤드가 줄어듭니다.
  • 정밀 보정: 혼합 정밀도 (FP16) 및 INT8과 같은 낮은 정밀도의 추론을 지원합니다. 모델 정량화를 통해 모델 가중치를 32비트 부동 소수점(FP32)에서 더 낮은 정밀도로 변환함으로써 TensorRT는 정확도에 미치는 영향을 최소화하면서 메모리 사용량과 계산 요구 사항을 획기적으로 줄입니다.
  • 커널 자동 튜닝: TensorRT는 각 연산에 최적화된 방대한 GPU 커널 라이브러리에서 선택하거나 대상 GPU에 맞게 특별히 튜닝된 커널을 자체적으로 생성합니다. 이를 통해 모든 계산이 하드웨어에서 최대한 효율적으로 수행됩니다.
  • 텐서 메모리 최적화: 모델 실행 전반에 걸쳐 텐서용 메모리를 재사용하여 메모리 사용량을 최적화하고 메모리 사용 공간을 줄이며 성능을 개선합니다.

개발자가 컴퓨터 비전(CV) 애플리케이션에 이러한 최적화를 활용할 수 있도록 Ultralytics YOLO 모델을 TensorRT 형식으로 쉽게 내보낼 수 있습니다.

실제 애플리케이션

TensorRT는 시간에 민감하고 리소스가 제한된 환경에서 고성능 AI를 배포하는 데 매우 중요합니다.

  1. 자율주행 차량: 자율 주행 차량에서 인식 시스템은 보행자, 다른 차량, 장애물을 감지하기 위해 카메라와 센서의 데이터를 실시간으로 처리해야 합니다. TensorRT로 최적화된 Ultralytics YOLO11과 같은 모델은 매우 짧은 지연 시간으로 물체 감지를 수행할 수 있으며, 이는 안전한 주행 결정을 내리는 데 매우 중요합니다.
  2. 스마트 제조: 공장 현장에서는 자동화된 품질 관리를 위해 제조 분야의 AI가 사용됩니다. 카메라가 컨베이어 벨트 위의 제품 이미지를 캡처하고 비전 모델이 결함이 있는지 분석합니다. 이러한 시스템은 TensorRT를 사용하여 고속 생산 라인에 보조를 맞춰 문제를 즉시 파악하고 전반적인 효율성을 개선할 수 있습니다.

TensorRT와 관련 기술 비교

TensorRT는 강력한 추론 엔진이지만, AI 에코시스템의 다른 도구와 어떻게 다른지 이해하는 것이 중요합니다:

  • 딥 러닝 프레임워크: PyTorch 및 TensorFlow와 같은 프레임워크는 주로 모델 학습을 위한 것입니다. 자체 추론 기능을 갖추고 있지만 TensorRT와 같은 전문화된 런타임만큼 배포에 최적화되어 있지 않습니다.
  • ONNX 런타임: ONNX(Open Neural Network Exchange) 형식은 모델을 상호 운용적으로 표현할 수 있는 방법을 제공합니다. ONNX 런타임은 NVIDIA GPU를 포함한 다양한 하드웨어 플랫폼에서 모델을 실행할 수 있습니다(실행 공급자로 TensorRT를 사용할 수 있는 경우). 그러나 TensorRT와 직접 통합하면 하드웨어별 최적화로 인해 NVIDIA 하드웨어에서 더 나은 성능을 얻을 수 있는 경우가 많습니다.
  • 인텔 오픈비노: OpenVINO는 TensorRT와 유사하지만 인텔 하드웨어(CPU, iGPU, VPU)에 최적화되어 있습니다. 추론 가속이라는 동일한 목적을 수행하지만 다른 하드웨어 에코시스템에 맞게 조정되어 있습니다.

TensorRT의 가장 큰 장점은 GPU부터 CUDA 라이브러리까지 NVIDIA 에코시스템과의 긴밀한 통합으로, MLPerf 벤치마크에서 자주 볼 수 있듯이 NVIDIA 플랫폼에 배포된 모델에서 탁월한 성능을 발휘할 수 있다는 점입니다. 모델 배포 관리는 Ultralytics HUB와 같은 MLOps 플랫폼을 통해 더욱 간소화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨