YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
통합

TensorRT 통합으로 Ultralytics YOLO 모델 최적화

실시간 애플리케이션을 위해 NVIDIA GPU에서 더 빠르고 효율적인 AI 성능을 내도록 TensorRT 통합을 사용하여 Ultralytics YOLO 모델을 내보내는 방법을 알아보세요.

ABAbirami Vina
5 min read
TensorRT 통합으로 Ultralytics YOLO 모델 최적화

도로를 달리는 자율주행 자동차가 보행자가 길가에서 내려서는 것을 감지하기까지 불과 몇 밀리초밖에 걸리지 않는 상황을 고려해 보십시오. 동시에 나무에 가려진 정지 표지판을 인식하거나 근처 차량이 차선으로 급하게 끼어드는 상황에 신속하게 반응해야 할 수도 있습니다. 이러한 상황에서는 속도와 실시간 대응이 매우 중요합니다.

바로 이 지점에서 인공지능(AI), 구체적으로는 기계가 시각 데이터를 해석하도록 돕는 AI의 한 분야인 컴퓨터 비전이 중요한 역할을 합니다. 컴퓨터 비전 솔루션이 실제 환경에서 안정적으로 작동하려면 정보를 빠르게 처리하고, 여러 작업을 동시에 수행하며, 메모리를 효율적으로 사용해야 하는 경우가 많습니다.

이를 달성하는 한 가지 방법은 그래픽 처리 장치(GPU)와 같은 특수 장치를 사용하여 모델을 더 빠르게 실행하는 하드웨어 가속입니다. NVIDIA GPU는 낮은 지연 시간과 높은 처리량을 제공하는 능력 덕분에 이러한 작업에 특히 잘 알려져 있습니다.

그러나 모델을 GPU에서 그대로 실행한다고 해서 항상 최적의 성능이 보장되는 것은 아닙니다. 비전 AI 모델은 일반적으로 하드웨어 장치의 기능을 완전히 활용하기 위해 최적화가 필요합니다. 특정 하드웨어에서 최대 성능을 달성하려면 하드웨어 전용 명령어 세트를 사용하도록 모델을 컴파일해야 합니다.

예를 들어, TensorRT는 고성능 머신에서 성능을 향상시키기 위해 NVIDIA가 개발한 내보내기 형식 및 최적화 라이브러리입니다. 이 라이브러리는 고급 기술을 사용하여 정확도를 유지하면서 추론 시간을 크게 단축합니다.

NVIDIA TensorRT는 NVIDIA 장치에서 모델이 최적으로 실행되도록 지원합니다

그림 1. NVIDIA TensorRT는 모델이 다양한 NVIDIA 장치에서 최적으로 실행되도록 합니다.

이 기사에서는 Ultralytics에서 지원하는 TensorRT 통합을 살펴보고, NVIDIA 하드웨어에서 더 빠르고 효율적인 배포를 위해 YOLO11 모델을 내보내는 방법을 단계별로 안내하겠습니다. 시작해 보겠습니다!

Link to this sectionTensorRT 개요#

TensorRT는 AI 모델이 NVIDIA GPU에서 더 빠르고 효율적으로 실행되도록 돕기 위해 NVIDIA가 개발한 툴킷입니다. 이 툴킷은 자율주행 자동차나 제조 및 제약 분야의 품질 관리와 같이 속도와 성능이 중요한 실제 애플리케이션을 위해 설계되었습니다.

TensorRT에는 모델이 낮은 지연 시간으로 실행되고 더 높은 처리량을 처리할 수 있도록 내부에서 작동하는 컴파일러 및 모델 최적화 도구가 포함되어 있습니다.

Ultralytics에서 지원하는 TensorRT 통합은 정밀도 감소와 같은 방법을 사용하여 YOLO 모델이 GPU에서 더 효율적으로 실행되도록 최적화합니다. 이는 모델 데이터를 표현하기 위해 16비트 부동 소수점(FP16)이나 8비트 정수(INT8)와 같은 저비트 형식을 사용하는 것을 의미하며, 이를 통해 정확도에 미치는 영향을 최소화하면서 메모리 사용량을 줄이고 계산 속도를 높입니다.

또한, 호환되는 신경망 레이어는 최적화된 TensorRT 모델에서 융합(fuse)되어 메모리 사용량을 줄이고 결과적으로 더 빠르고 효율적인 추론을 가능하게 합니다.

TensorRT의 레이어 퓨전 기술 살펴보기

그림 2. TensorRT의 레이어 융합 기술 살펴보기.

Link to this sectionTensorRT 내보내기 형식의 주요 기능#

TensorRT 통합을 사용하여 YOLO11을 내보내는 방법을 논의하기 전에 TensorRT 모델 형식의 몇 가지 주요 기능을 살펴보겠습니다.

  • 간편한 프레임워크 통합: TensorRT는 PyTorch, Hugging Face, ONNX와 같은 인기 있는 AI 프레임워크와의 직접적인 통합을 지원하며 최대 6배 더 빠른 성능을 제공합니다. 또한 MATLAB을 지원하여 Jetson, NVIDIA DRIVE 및 데이터 센터와 같은 플랫폼에서 고속 AI 엔진을 개발할 수 있도록 합니다.

  • Triton을 통한 확장 가능한 배포: TensorRT 형식으로 최적화된 모델은 NVIDIA Triton Inference Server를 사용하여 대규모로 배포할 수 있으며, 입력 일괄 처리, 동시 모델 실행, 모델 앙상블 지원, 실시간 오디오/비디오 스트리밍과 같은 기능을 통해 효율성을 향상시킵니다.

  • 장치 간 유연성: 소형 엣지 장치부터 강력한 서버에 이르기까지 TensorRT는 전체 NVIDIA 생태계에서 작동하며, 비디오를 위한 DeepStream, 음성 AI를 위한 Riva, 그리고 사이버 보안, 추천 등을 위한 다른 도구들을 지원합니다.

Link to this sectionTensorRT 통합은 어떻게 작동합니까?#

Ultralytics YOLO11과 같은 Ultralytics YOLO 모델을 TensorRT 모델 형식으로 내보내는 것은 쉽습니다. 관련된 단계를 살펴보겠습니다.

시작하려면 ‘pip’와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치할 수 있습니다. 이는 명령 프롬프트나 터미널에서 “pip install ultralytics” 명령을 실행하여 수행할 수 있습니다.

Ultralytics Python 패키지를 성공적으로 설치한 후에는 객체 탐지, 분류, 인스턴스 세그멘테이션과 같은 다양한 컴퓨터 비전 작업을 위해 모델을 학습, 테스트, 미세 조정, 내보내기 및 배포할 수 있습니다. 패키지 설치 중 어려움이 발생하면 일반 문제 가이드에서 해결책과 팁을 참조할 수 있습니다.

다음 단계로는 NVIDIA 장치가 필요합니다. 아래 코드 조각을 사용하여 YOLO11을 로드하고 TensorRT 모델 형식으로 내보내십시오. 이는 사전 학습된 YOLO11 나노 변형 모델(yolo11n.pt)을 로드하고 이를 TensorRT 엔진 파일(yolo11n.engine)로 내보내어 NVIDIA 장치 전반에 배포할 준비를 마칩니다.

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
model.export(format="engine")

모델을 TensorRT 형식으로 변환한 후에는 다양한 애플리케이션에 배포할 수 있습니다.

아래 예시는 내보낸 YOLO11 모델(yolo11n.engine)을 로드하고 이를 사용하여 추론을 실행하는 방법을 보여줍니다. 추론에는 학습된 모델을 사용하여 새로운 데이터에 대해 예측을 수행하는 과정이 포함됩니다. 이 경우, 강아지 입력 이미지를 사용하여 모델을 테스트하겠습니다.

tensorrt_model = YOLO("yolo11n.engine")
results = tensorrt_model("https://images.pexels.com/photos/1254140/pexels-photo-1254140.jpeg?auto=compress&cs=tinysrgb&w=1260&h=750&dpr=2.jpg", save=True)

이 코드를 실행하면 다음 결과 이미지가 runs/detect/predict 폴더에 저장됩니다.

TensorRT 형식으로 내보낸 YOLO11 모델을 사용하여 추론 실행하기

그림 3. TensorRT 형식의 내보낸 YOLO11 모델을 사용하여 추론을 실행한 결과.

Link to this sectionTensorRT 통합을 활용해야 할 시기#

Ultralytics Python 패키지는 YOLO 모델을 TorchScript, CoreML, ONNX 및 TensorRT와 같은 다양한 형식으로 내보내는 여러 통합을 지원합니다. 그렇다면 언제 TensorRT 통합을 선택해야 할까요?

다음은 다른 통합 옵션과 비교하여 TensorRT 모델 형식을 차별화하는 몇 가지 요소입니다.

  • 더 작은 모델 크기: YOLO 모델을 INT8 정밀도로 TensorRT 형식으로 내보내면 모델 크기를 크게 줄일 수 있습니다. FP32에서 INT8로의 양자화는 모델 크기를 4배까지 줄일 수 있으며, 이를 통해 다운로드 시간 단축, 저장 공간 요구 사항 감소 및 배포 중 메모리 사용량 절감이 가능합니다.

  • 더 낮은 전력 소비: INT8 양자화는 모델 크기를 줄일 뿐만 아니라 전력 소비도 감소시킵니다. INT8로 내보낸 YOLO 모델의 정밀도가 낮은 연산은 FP32 모델에 비해 더 적은 전력을 소모할 수 있으며, 이는 드론, 스마트폰 또는 엣지 장치와 같은 배터리 기반 장치에 특히 유용합니다.

  • 더 빠른 성능: YOLO의 효율적인 아키텍처와 TensorRT의 INT8 최적화를 결합하면 추론 속도가 향상될 수 있습니다.

Link to this sectionYOLO11과 TensorRT 모델 형식의 애플리케이션#

TensorRT 형식으로 내보낸 Ultralytics YOLO 모델은 광범위한 실제 시나리오에 배포할 수 있습니다. 이러한 최적화된 모델은 빠르고 효율적인 AI 성능이 핵심인 곳에서 특히 유용합니다. 사용 방법에 대한 흥미로운 예시들을 살펴보겠습니다.

Link to this section소매점의 스마트 체크아웃 카운터#

소매점에서 바코드 스캔, 제품 무게 측정 또는 상품 포장과 같은 다양한 작업이 여전히 직원에 의해 수동으로 처리되고 있습니다. 그러나 직원에게만 의존하면 작업 속도가 느려지고 특히 체크아웃 시 고객의 불만을 초래할 수 있습니다. 긴 줄은 쇼핑객과 매장 주인 모두에게 불편을 줍니다. 스마트 셀프 체크아웃 카운터는 이 문제를 해결할 수 있는 훌륭한 방법입니다.

이러한 카운터는 컴퓨터 비전과 GPU를 사용하여 처리 속도를 높이고 대기 시간을 줄입니다. 컴퓨터 비전은 이러한 시스템이 객체 탐지와 같은 작업을 통해 주변 환경을 보고 이해할 수 있도록 합니다. YOLO11과 같은 고급 모델을 TensorRT와 같은 도구로 최적화하면 GPU 장치에서 훨씬 빠르게 실행될 수 있습니다.

이러한 내보낸 모델은 엣지 AI 애플리케이션을 위해 특별히 설계된 NVIDIA Jetson Nano와 같이 작지만 강력한 하드웨어 장치를 사용하는 스마트 소매점 설정에 적합합니다.

스마트 결제 카운터 예시

그림 4. 스마트 체크아웃 카운터의 예.

Link to this section제조업에서의 자동화된 결함 탐지#

YOLO11과 같은 컴퓨터 비전 모델은 제조업에서 결함이 있는 제품을 탐지하도록 맞춤 학습될 수 있습니다. 학습이 완료되면 모델을 TensorRT 형식으로 내보내 고성능 AI 시스템이 장착된 시설에 배포할 수 있습니다.

제품이 컨베이어 벨트를 따라 이동함에 따라 카메라가 이미지를 캡처하고, TensorRT 형식으로 실행 중인 YOLO11 모델이 실시간으로 이미지를 분석하여 결함을 찾아냅니다. 이 설정은 기업이 문제를 신속하고 정확하게 포착하여 오류를 줄이고 효율성을 향상시킬 수 있게 합니다.

마찬가지로 제약 산업과 같은 분야에서도 이러한 시스템을 사용하여 의료용 포장의 결함을 식별하고 있습니다. 실제로 스마트 결함 탐지 시스템의 글로벌 시장 규모는 2026년까지 50억 달러로 성장할 것으로 예상됩니다.

YOLO를 사용하여 제약 산업의 결함 감지하기

그림 5. 제약 산업에서 YOLO를 사용하여 결함 탐지.

Link to this sectionTensorRT 사용 시 고려해야 할 사항#

TensorRT 통합은 더 빠른 추론 속도와 감소된 지연 시간과 같은 많은 장점을 제공하지만, 고려해야 할 몇 가지 제한 사항이 있습니다.

  • 정확도의 미세한 하락: 모델을 TensorRT 형식으로 내보낼 때, 내보낸 모델이 원본만큼 정확하지 않을 수 있습니다. 정밀도, 재현율, 모델의 객체 탐지 성능(mAP 점수)과 같은 성능 지표가 약간 하락할 수 있습니다. 이는 양자화 과정에서 대표 데이터셋을 사용하여 완화할 수 있습니다.

  • 디버깅 복잡성 증가: TensorRT에 의해 수행된 최적화는 오류를 추적하거나 예기치 않은 동작을 이해하는 것을 더 까다롭게 만들 수 있으며, 특히 결과를 원본 모델과 비교할 때 더욱 그렇습니다.

  • 배치 크기 민감도: TensorRT의 성능 향상은 큰 배치 크기에서 더 두드러집니다. 단일 이미지나 작은 배치를 처리하는 애플리케이션의 경우 성능 개선 효과가 덜 중요할 수 있습니다.

Link to this section핵심 요약#

Ultralytics YOLO 모델을 TensorRT 형식으로 내보내면 실행 속도가 훨씬 빨라지고 효율적여지며, 공장의 결함 탐지, 스마트 체크아웃 시스템 구동 또는 혼잡한 도심 지역 모니터링과 같은 실시간 작업에 이상적입니다.

이 최적화는 예측 속도를 높이고 메모리 및 전력 사용량을 줄임으로써 모델이 NVIDIA GPU에서 더 잘 작동하도록 돕습니다. 몇 가지 제한 사항이 있지만, 성능 향상 덕분에 TensorRT 통합은 NVIDIA 하드웨어에서 고속 컴퓨터 비전 시스템을 구축하는 모든 사람에게 훌륭한 선택이 됩니다.

AI에 대해 더 알고 싶으십니까? 컴퓨터 비전 프로젝트를 시작하려면 GitHub 저장소를 탐색하고, 커뮤니티와 연결하며, 라이선스 옵션을 확인해 보십시오. 제조업의 AI물류 산업의 컴퓨터 비전과 같은 혁신에 대해 더 자세히 알아보려면 솔루션 페이지를 참조하십시오.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.