YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

TensorRT 통합으로 Ultralytics YOLO 모델 최적화

Abirami Vina

5분 분량

2025년 5월 20일

TensorRT 통합을 사용하여 Ultralytics YOLO 모델을 내보내어 실시간 애플리케이션을 위한 NVIDIA GPU에서 더 빠르고 효율적인 AI 성능을 얻는 방법을 알아보세요.

보행자가 연석에서 내려오는 것을 감지하는 데 단 몇 밀리초밖에 주어지지 않는 번잡한 거리를 이동하는 자율 주행 자동차를 생각해 보십시오. 동시에 나무에 부분적으로 가려진 정지 표지판을 인식하거나 차선을 침범하는 근처 차량에 신속하게 대응해야 할 수도 있습니다. 이러한 상황에서는 속도와 실시간 응답이 매우 중요합니다.

이러한 상황에서 인공 지능(AI), 특히 기계가 시각적 데이터를 해석하도록 돕는 AI의 한 분야인 컴퓨터 비전이 중요한 역할을 합니다. 컴퓨터 비전 솔루션이 실제 환경에서 안정적으로 작동하려면 정보를 빠르게 처리하고, 여러 작업을 동시에 처리하고, 메모리를 효율적으로 사용해야 하는 경우가 많습니다.

이를 달성하는 한 가지 방법은 그래픽 처리 장치(GPU)와 같은 특수 장치를 사용하여 모델을 더 빠르게 실행하는 하드웨어 가속을 이용하는 것입니다. NVIDIA GPU는 낮은 대기 시간과 높은 처리량을 제공하는 능력 덕분에 특히 이러한 작업에 잘 알려져 있습니다.

그러나 모델을 GPU에서 있는 그대로 실행한다고 해서 항상 최적의 성능이 보장되는 것은 아닙니다. 일반적으로 Vision AI 모델은 하드웨어 장치의 기능을 최대한 활용하기 위해 최적화가 필요합니다. 특정 하드웨어로 최대 성능을 얻으려면 하드웨어에 맞는 특정 명령어 세트를 사용하도록 모델을 컴파일해야 합니다.

예를 들어, TensorRT는 NVIDIA에서 개발한 내보내기 형식 및 최적화 라이브러리로, 고급 장비의 성능을 향상시킵니다. 정확도를 유지하면서 추론 시간을 크게 줄이기 위해 고급 기술을 사용합니다.

Fig 1. NVIDIA TensorRT를 통해 다양한 NVIDIA 장치에서 모델을 최적으로 실행할 수 있습니다.

이번 글에서는 Ultralytics에서 지원하는 TensorRT 통합에 대해 살펴보고 NVIDIA 하드웨어에서 더 빠르고 효율적인 배포를 위해 YOLO11 모델을 내보내는 방법을 안내합니다. 그럼 시작해 볼까요!

TensorRT 개요

TensorRT는 NVIDIA GPU에서 AI 모델이 더 빠르고 효율적으로 실행되도록 NVIDIA에서 개발한 툴킷입니다. 자율 주행 자동차, 제조 및 제약 분야의 품질 관리와 같이 속도와 성능이 중요한 실제 애플리케이션을 위해 설계되었습니다. 

TensorRT에는 컴파일러 및 모델 최적화 프로그램과 같은 도구가 포함되어 있어 백그라운드에서 작동하여 모델이 낮은 지연 시간으로 실행되고 더 높은 처리량을 처리할 수 있도록 합니다.

Ultralytics에서 지원하는 TensorRT 통합은 정밀도 감소와 같은 방법을 사용하여 GPU에서 YOLO 모델이 더 효율적으로 실행되도록 최적화하여 작동합니다. 이는 모델 데이터를 나타내는 데 16비트 부동 소수점(FP16) 또는 8비트 정수(INT8)와 같은 하위 비트 형식을 사용하여 메모리 사용량을 줄이고 정확도에 미치는 영향을 최소화하면서 계산 속도를 높이는 것을 의미합니다. 

또한 호환 가능한 신경망 레이어가 최적화된 TensorRT 모델에서 융합되어 메모리 사용량이 줄어들어 추론이 더 빠르고 효율적으로 이루어집니다.

Fig 2. TensorRT의 레이어 융합 기술을 보여줍니다.

TensorRT 내보내기 형식의 주요 기능

TensorRT 통합을 사용하여 YOLO11을 내보내는 방법에 대해 논의하기 전에 TensorRT 모델 형식의 주요 기능 중 일부를 살펴보겠습니다.

  • 쉬운 프레임워크 통합: TensorRT는 PyTorch, Hugging Face 및 ONNX와 같은 널리 사용되는 AI 프레임워크와의 직접적인 통합을 지원하여 최대 6배 더 빠른 성능을 제공합니다. 또한 MATLAB을 지원하여 Jetson, NVIDIA DRIVE 및 데이터 센터와 같은 플랫폼에서 고속 AI 엔진을 개발할 수 있습니다.
  • Triton을 사용한 확장 가능한 배포: TensorRT 형식으로 최적화된 모델은 입력 일괄 처리, 동시 모델 실행, 모델 앙상블 지원 및 실시간 오디오/비디오 스트리밍과 같은 기능을 통해 효율성을 향상시키는 NVIDIA Triton Inference Server를 사용하여 대규모로 배포할 수 있습니다.
  • 다양한 장치에서 유연하게 사용 가능: 소형 엣지 장치에서 강력한 서버에 이르기까지 TensorRT는 비디오용 DeepStream, 음성 AI용 Riva, 사이버 보안, 추천 등 다양한 도구를 지원하는 전체 NVIDIA 에코시스템에서 작동합니다.

TensorRT 통합은 어떻게 작동하나요?

Ultralytics YOLO11과 같은 Ultralytics YOLO 모델을 TensorRT 모델 형식으로 내보내는 것은 쉽습니다. 관련된 단계를 살펴보겠습니다.

시작하려면 ‘pip’와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치할 수 있습니다. 명령 프롬프트 또는 터미널에서 “pip install ultralytics” 명령을 실행하여 이를 수행할 수 있습니다.

Ultralytics Python 패키지를 성공적으로 설치한 후 객체 감지, 분류 및 인스턴스 분할과 같은 다양한 컴퓨터 비전 작업에 대한 모델을 학습, 테스트, 미세 조정, 내보내기 및 배포할 수 있습니다. 패키지를 설치하는 동안 어려움이 발생하면 일반적인 문제 가이드에서 해결 방법 및 팁을 참조할 수 있습니다.

다음 단계에서는 NVIDIA 장치가 필요합니다. 아래 코드 스니펫을 사용하여 YOLOv11을 로드하고 TensorRT 모델 형식으로 내보냅니다. YOLO11 모델의 사전 훈련된 nano 버전을 로드하고(yolo11n.pt) TensorRT 엔진 파일(yolo11n.engine)로 내보내 NVIDIA 장치에서 배포할 수 있도록 준비합니다.

from ultralytics import YOLO

model = YOLO("yolo11n.pt")

model.export(format="engine") 

모델을 TensorRT 형식으로 변환한 후 다양한 애플리케이션에 배포할 수 있습니다. 

아래 예제는 내보낸 YOLO11 모델(yolo11n.engine)을 로드하고 이를 사용하여 추론을 실행하는 방법을 보여줍니다. 추론은 훈련된 모델을 사용하여 새로운 데이터에 대한 예측을 수행하는 것을 의미합니다. 이 예에서는 모델을 테스트하기 위해 강아지 입력 이미지를 사용합니다. 

tensorrt_model = YOLO("yolo11n.engine")

results = tensorrt_model("https://images.pexels.com/photos/1254140/pexels-photo-1254140.jpeg?auto=compress&cs=tinysrgb&w=1260&h=750&dpr=2.jpg", save=True)

이 코드를 실행하면 다음 출력 이미지가 runs/detect/predict 폴더에 저장됩니다.

그림 3. TensorRT 형식으로 내보낸 YOLO11 모델을 사용하여 추론을 실행한 결과입니다.

TensorRT 통합 활용 시점

Ultralytics Python 패키지는 YOLO 모델을 TorchScript, CoreML, ONNX 및 TensorRT와 같은 다양한 형식으로 내보내기할 수 있는 다양한 통합을 지원합니다. 그렇다면 TensorRT 통합을 선택해야 하는 경우는 언제일까요?

다음은 TensorRT 모델 형식을 다른 내보내기 통합 옵션과 차별화하는 몇 가지 요소입니다.

  • 더 작은 모델 크기: YOLO 모델을 INT8 정밀도로 TensorRT 형식으로 내보내면 모델 크기를 크게 줄일 수 있습니다. FP32에서 INT8로의 양자화는 모델 크기를 4배 줄일 수 있으므로 다운로드 시간이 빨라지고 스토리지 요구 사항이 낮아지며 배포 중 메모리 사용량이 줄어듭니다.
  • 낮은 전력 사용량: INT8 양자화는 모델 크기를 줄일 뿐만 아니라 전력 소비도 줄입니다. INT8로 내보낸 YOLO 모델에 대한 감소된 정밀도 연산은 FP32 모델에 비해 전력을 덜 소비할 수 있으며, 이는 드론, 스마트폰 또는 엣지 장치와 같은 배터리 전원 장치에 특히 유용합니다.
  • 더 빠른 성능: YOLO의 효율적인 아키텍처와 TensorRT의 INT8 최적화를 결합하면 추론 속도를 향상시킬 수 있습니다.

YOLO11 및 TensorRT 모델 형식의 활용

TensorRT 형식으로 내보낸 Ultralytics YOLO 모델은 광범위한 실제 시나리오에 배포할 수 있습니다. 이러한 최적화된 모델은 빠르고 효율적인 AI 성능이 중요한 곳에서 특히 유용합니다. 이러한 모델이 어떻게 사용될 수 있는지에 대한 몇 가지 흥미로운 예를 살펴보겠습니다.

소매점의 스마트 계산대

바코드 스캔, 제품 무게 측정, 품목 포장과 같은 소매점의 광범위한 작업은 여전히 직원이 수동으로 처리합니다. 그러나 직원에만 의존하면 운영 속도가 느려지고 특히 계산대에서 고객 불만을 야기할 수 있습니다. 긴 줄은 쇼핑객과 상점 주인 모두에게 불편합니다. 스마트 셀프 계산대는 이 문제에 대한 훌륭한 해결책입니다.

이러한 카운터는 컴퓨터 비전과 GPU를 사용하여 프로세스 속도를 높여 대기 시간을 줄이는 데 도움이 됩니다. 컴퓨터 비전을 통해 이러한 시스템은 객체 감지와 같은 작업을 통해 환경을 보고 이해할 수 있습니다. TensorRT와 같은 도구로 최적화된 YOLO11과 같은 고급 모델은 GPU 장치에서 훨씬 더 빠르게 실행할 수 있습니다.

이러한 내보낸 모델은 엣지 AI 애플리케이션을 위해 특별히 설계된 NVIDIA Jetson Nano와 같은 작지만 강력한 하드웨어 장치를 사용하는 스마트 리테일 환경에 적합합니다.

Fig 4. 스마트 계산대의 예시.

제조 공정에서의 자동화된 결함 감지

YOLO11과 같은 컴퓨터 비전 모델은 제조 산업에서 결함이 있는 제품을 감지하도록 사용자 정의 학습될 수 있습니다. 일단 학습되면 고성능 AI 시스템을 갖춘 시설에 배포하기 위해 모델을 TensorRT 형식으로 내보낼 수 있습니다. 

제품이 컨베이어 벨트를 따라 이동함에 따라 카메라가 이미지를 캡처하고 TensorRT 형식으로 실행되는 YOLO11 모델이 실시간으로 이미지를 분석하여 결함을 찾아냅니다. 이 설정을 통해 기업은 문제를 빠르고 정확하게 파악하여 오류를 줄이고 효율성을 높일 수 있습니다.

마찬가지로 제약과 같은 산업에서는 이러한 유형의 시스템을 사용하여 의료 포장의 결함을 식별하고 있습니다. 실제로 스마트 결함 감지 시스템의 글로벌 시장은 2026년까지 50억 달러로 성장할 것으로 예상됩니다.

Fig 5. 제약 산업에서 YOLO를 사용하여 결함을 탐지합니다.

TensorRT 사용 시 유의해야 할 고려 사항

TensorRT 통합은 더 빠른 추론 속도와 감소된 대기 시간과 같은 많은 이점을 제공하지만, 다음과 같은 몇 가지 제한 사항을 염두에 두어야 합니다:

  • 정확도 약간 감소: 모델을 TensorRT 형식으로 내보낼 때 내보낸 모델이 원본만큼 정확하지 않을 수 있습니다. 정밀도, 재현율 및 모델이 객체를 얼마나 잘 감지하는지(mAP 점수)와 같은 성능 지표가 약간 떨어질 수 있습니다. 이는 양자화 중에 대표적인 데이터 세트를 사용하여 완화할 수 있습니다. 
  • 디버깅 복잡성 증가: TensorRT에서 수행한 최적화는 특히 원래 모델과 결과를 비교할 때 오류를 추적하거나 예상치 못한 동작을 이해하기 더 어렵게 만들 수 있습니다.
  • 배치 크기 민감도: TensorRT의 성능 향상은 더 큰 배치 크기에서 더욱 두드러집니다. 단일 이미지 또는 작은 배치를 처리하는 애플리케이션의 경우 성능 향상이 덜 중요할 수 있습니다.

주요 내용

Ultralytics YOLO 모델을 TensorRT 형식으로 내보내면 훨씬 더 빠르고 효율적으로 실행되므로 공장에서 결함을 감지하거나, 스마트 결제 시스템을 강화하거나, 번잡한 도시 지역을 모니터링하는 것과 같은 실시간 작업에 이상적입니다. 

이러한 최적화는 예측 속도를 높이고 메모리 및 전력 사용량을 줄여 NVIDIA GPU에서 모델 성능을 향상시킵니다. 몇 가지 제한 사항이 있지만 성능 향상으로 인해 NVIDIA 하드웨어에서 고속 컴퓨터 비전 시스템을 구축하는 모든 사람에게 TensorRT 통합이 훌륭한 선택이 됩니다.

AI에 대해 더 자세히 알고 싶으신가요? GitHub 저장소를 탐색하고, 커뮤니티와 연결하고, 라이선스 옵션을 확인하여 컴퓨터 비전 프로젝트를 시작하세요. 솔루션 페이지에서 제조업의 AI물류 산업의 컴퓨터 비전과 같은 혁신에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.