YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

TensorRT

TensorRT로 딥러닝 모델을 최적화하여 NVIDIA GPU에서 더 빠르고 효율적인 추론을 수행합니다. YOLO 및 AI 애플리케이션으로 실시간 성능을 달성하세요.

TensorRT는 NVIDIA의 고성능 딥러닝 추론 최적화 프로그램 및 런타임 라이브러리입니다. 특히 NVIDIA GPU(Graphics Processing Units)에서 학습된 신경망(NN)의 성능을 극대화하도록 설계되었습니다. PyTorch 또는 TensorFlow와 같은 프레임워크를 사용하여 모델을 학습한 후 TensorRT는 해당 모델을 가져와 배포를 준비하기 위해 수많은 최적화를 적용합니다. 그 결과 추론 지연 시간을 크게 줄이고 처리량을 향상시킬 수 있는 매우 효율적인 런타임 엔진이 되어 실시간 추론이 필요한 애플리케이션에 이상적입니다.

TensorRT 작동 방식

TensorRT는 표준 학습된 모델을 간소화된 추론 엔진으로 변환하는 다단계 최적화 프로세스를 통해 성능 향상을 달성합니다. 이 프로세스는 대부분 자동화되어 있으며 배포될 특정 NVIDIA GPU 아키텍처에 맞춰 조정됩니다. 주요 최적화 기술은 다음과 같습니다.

  • Graph Optimization: TensorRT는 훈련된 모델을 파싱하고 사용하지 않는 레이어를 제거하고 레이어를 수직(순차적 레이어 결합) 및 수평(병렬 레이어 결합)으로 융합하는 것과 같은 그래프 최적화를 수행합니다. 이는 연산 수와 메모리 오버헤드를 줄입니다.
  • 정밀도 보정: 혼합 정밀도(FP16) 및 INT8과 같은 낮은 정밀도 추론을 지원합니다. 모델 양자화를 통해 모델 가중치를 32비트 부동 소수점(FP32)에서 낮은 정밀도로 변환함으로써 TensorRT는 정확도에 미치는 영향을 최소화하면서 메모리 사용량과 계산 요구 사항을 획기적으로 줄입니다.
  • 커널 자동 튜닝: TensorRT는 각 연산에 대해 최적화된 GPU 커널의 방대한 라이브러리에서 선택하거나 대상 GPU에 맞게 특별히 튜닝된 자체 커널을 생성합니다. 이를 통해 모든 계산이 하드웨어에서 가능한 한 효율적으로 수행되도록 합니다.
  • 텐서 메모리 최적화: 모델 실행 전반에 걸쳐 텐서에 대한 메모리를 재사용하여 메모리 사용량을 최적화하여 메모리 공간을 줄이고 성능을 향상시킵니다.

Ultralytics YOLO 모델은 TensorRT 형식으로 쉽게 내보낼 수 있어 개발자가 컴퓨터 비전(CV) 애플리케이션에 이러한 최적화를 활용할 수 있습니다.

실제 애플리케이션

TensorRT는 시간에 민감하고 리소스가 제한된 환경에서 고성능 AI를 배포하는 데 매우 중요합니다.

  1. 자율 주행 차량: 자율 주행 자동차에서 인식 시스템은 보행자, 다른 차량 및 장애물을 감지하기 위해 카메라와 센서의 데이터를 실시간으로 처리해야 합니다. TensorRT로 최적화된 Ultralytics YOLO11과 같은 모델은 안전한 운전 결정을 내리는 데 중요한 매우 낮은 지연 시간으로 객체 탐지를 수행할 수 있습니다.
  2. 스마트 제조: 공장 현장에서 제조 분야의 AI는 자동화된 품질 관리에 사용됩니다. 카메라는 컨베이어 벨트의 제품 이미지를 캡처하고 비전 모델은 결함이 있는지 분석합니다. TensorRT를 사용함으로써 이러한 시스템은 고속 생산 라인에 발맞춰 즉시 문제를 식별하고 전반적인 효율성을 향상시킬 수 있습니다.

TensorRT와 관련 기술 비교

TensorRT는 강력한 추론 엔진이지만, AI 생태계의 다른 도구와 어떻게 다른지 이해하는 것이 중요합니다.

  • 딥 러닝 프레임워크(Deep Learning Frameworks): PyTorch 및 TensorFlow와 같은 프레임워크는 주로 모델 학습용입니다. 자체 추론 기능이 있지만 TensorRT와 같은 특수 런타임만큼 배포에 최적화되어 있지는 않습니다.
  • ONNX 런타임(ONNX Runtime): ONNX(Open Neural Network Exchange) 형식은 모델을 상호 운용적으로 표현하는 방법을 제공합니다. ONNX 런타임은 NVIDIA GPU(TensorRT를 실행 공급자로 사용할 수 있음)를 포함한 다양한 하드웨어 플랫폼에서 모델을 실행할 수 있습니다. 그러나 TensorRT와의 직접적인 통합은 하드웨어별 최적화로 인해 NVIDIA 하드웨어에서 더 나은 성능을 제공하는 경우가 많습니다.
  • Intel OpenVINO: OpenVINO는 TensorRT와 유사하지만 Intel 하드웨어(CPU, iGPU, VPU)에 최적화되어 있습니다. 추론 가속화라는 동일한 목적을 수행하지만 다른 하드웨어 에코시스템에 맞게 조정되었습니다.

TensorRT의 주요 장점은 GPU에서 CUDA 라이브러리에 이르기까지 NVIDIA 에코시스템과의 긴밀한 통합으로, MLPerf 벤치마크에서 자주 볼 수 있듯이 NVIDIA 플랫폼에 배포된 모델에 대해 탁월한 성능을 제공합니다. 모델 배포 관리는 Ultralytics HUB와 같은 MLOps 플랫폼을 통해 더욱 간소화할 수 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.