실시간 애플리케이션을 위한 NVIDIA GPU에서 더 빠르고 효율적인 AI 성능을 위해 TensorRT 통합을 사용하여 Ultralytics YOLO 모델을 내보내는 방법을 알아보세요.
복잡한 도로를 달리는 자율주행차가 연석에서 발을 내딛는 보행자를 감지하는 데 몇 밀리초밖에 걸리지 않는다고 생각해 보세요. 동시에 나무에 가려진 정지 표지판을 인식하거나 차선을 변경하는 주변 차량에 빠르게 반응해야 할 수도 있습니다. 이러한 상황에서는 속도와 실시간 응답이 매우 중요합니다.
인공지능(AI), 특히 기계가 시각적 데이터를 해석하는 데 도움을 주는 AI의 한 분야인 컴퓨터 비전이 중요한 역할을 하는 곳입니다. 컴퓨터 비전 솔루션이 실제 환경에서 안정적으로 작동하려면 정보를 빠르게 처리하고, 한 번에 여러 작업을 처리하며, 메모리를 효율적으로 사용해야 하는 경우가 많습니다.
이를 달성하는 한 가지 방법은 그래픽 처리 장치(GPU) 와 같은 특수 장치를 사용하여 모델을 더 빠르게 실행하는 하드웨어 가속을 이용하는 것입니다. NVIDIA GPU는 짧은 지연 시간과 높은 처리량을 제공하는 기능 덕분에 이러한 작업에 특히 잘 알려져 있습니다.
하지만 GPU 모델을 그대로 실행한다고 해서 항상 최적의 성능을 보장하는 것은 아닙니다. 비전 AI 모델은 일반적으로 하드웨어 장치의 기능을 최대한 활용하기 위해 최적화가 필요합니다. 특정 하드웨어에서 완전한 성능을 얻으려면 해당 하드웨어에 대한 특정 명령어 세트를 사용하도록 모델을 컴파일해야 합니다.
예를 들어, TensorRT 하이엔드 머신의 성능을 향상시키기 위해 NVIDIA 개발한 내보내기 형식 및 최적화 라이브러리입니다. 이 라이브러리는 고급 기술을 사용하여 정확도를 유지하면서 추론 시간을 크게 단축합니다.
이 문서에서는 Ultralytics 지원하는 TensorRT 통합을 살펴보고, YOLO11 모델을 익스포트하여 NVIDIA 하드웨어에 보다 빠르고 효율적으로 배포하는 방법을 안내합니다. 시작해 보겠습니다!
TensorRT NVIDIA GPU에서 AI 모델을 더 빠르고 효율적으로 실행할 수 있도록 NVIDIA 개발한 툴킷입니다. 자율 주행 자동차, 제조 및 제약 분야의 품질 관리와 같이 속도와 성능이 매우 중요한 실제 애플리케이션을 위해 설계되었습니다.
TensorRT 모델이 짧은 지연 시간으로 실행되고 더 높은 처리량을 처리할 수 있도록 백그라운드에서 작동하는 컴파일러 및 모델 최적화 도구와 같은 도구가 포함되어 있습니다.
Ultralytics 지원하는 TensorRT 통합은 정밀도를 낮추는 등의 방법을 사용하여 YOLO 모델을 최적화하여 GPU에서 보다 효율적으로 실행되도록 합니다. 즉, 16비트 부동 소수점(FP16) 또는 8비트 정수(INT8)와 같은 낮은 비트 형식을 사용하여 모델 데이터를 표현함으로써 정확도에 미치는 영향을 최소화하면서 메모리 사용량을 줄이고 계산 속도를 높입니다.
또한, 호환 가능한 신경망 레이어가 최적화된 TensorRT 모델에 융합되어 메모리 사용량을 줄여 더 빠르고 효율적으로 추론할 수 있습니다.
TensorRT 통합을 사용하여 YOLO11 내보내는 방법에 대해 설명하기 전에 TensorRT 모델 형식의 몇 가지 주요 기능을 살펴 보겠습니다:
Ultralytics YOLO11 같은 Ultralytics YOLO11 모델을 TensorRT 모델 형식으로 내보내는 것은 쉽습니다. 관련된 단계를 살펴보겠습니다.
시작하려면 'pip'와 같은 패키지 관리자를 사용하여 Ultralytics Python 패키지를 설치할 수 있습니다. 명령 프롬프트나 터미널에서 "pip install ultralytics" 명령을 실행하면 됩니다.
Ultralytics Python 패키지를 성공적으로 설치한 후에는 객체 감지, 분류 및 인스턴스 분할과 같은 다양한 컴퓨터 비전 작업을 위한 모델을 훈련, 테스트, 미세 조정, 내보내기 및 배포할 수 있습니다. 패키지를 설치하는 동안 문제가 발생하면 일반적인 문제 가이드를 참조하여 해결 방법과 팁을 얻을 수 있습니다.
다음 단계에서는 NVIDIA 디바이스가 필요합니다. 아래 코드 스니펫을 사용하여 YOLOv11을 로드하고 TensorRT 모델 형식으로 내보냅니다. 사전 학습된 YOLO11 모델의 나노 변형(yolo11n.pt)을 로드하고 TensorRT 엔진 파일(yolo11n.engine)로 익스포트하여 NVIDIA 장치에 배포할 수 있도록 준비합니다.
from ultralytics import YOLO
model = YOLO("yolo11n.pt")
model.export(format="engine")
모델을 TensorRT 형식으로 변환한 후에는 다양한 애플리케이션에 배포할 수 있습니다.
아래 예는 내보낸 YOLO11 모델(yolo11n.engine)을 로드하고 이를 사용하여 추론을 실행하는 방법을 보여줍니다. 추론은 학습된 모델을 사용하여 새로운 데이터를 예측하는 것을 포함합니다. 이 예에서는 강아지의 입력 이미지를 사용하여 모델을 테스트합니다.
tensorrt_model = YOLO("yolo11n.engine")
results = tensorrt_model("https://images.pexels.com/photos/1254140/pexels-photo-1254140.jpeg?auto=compress&cs=tinysrgb&w=1260&h=750&dpr=2.jpg", save=True)
이 코드를 실행하면 실행/감지/예측 폴더에 다음 출력 이미지가 저장됩니다.
Ultralytics Python 패키지는 YOLO 모델을 TorchScript, CoreML, ONNX 및 TensorRT 같은 다양한 형식으로 내보낼 수 있는 다양한 통합을 지원합니다. 그렇다면 언제 TensorRT 통합을 사용해야 할까요?
다음은 다른 내보내기 통합 옵션과 TensorRT 모델 형식을 차별화하는 몇 가지 요소입니다:
TensorRT 형식으로 내보낸 Ultralytics YOLO 모델은 다양한 실제 시나리오에 배포할 수 있습니다. 이러한 최적화된 모델은 빠르고 효율적인 AI 성능이 핵심인 경우에 특히 유용합니다. 이 모델을 어떻게 사용할 수 있는지 몇 가지 흥미로운 예를 살펴보겠습니다.
바코드 스캔, 제품 무게 측정, 상품 포장 등 소매점에서는 여전히 다양한 작업을 직원이 수작업으로 처리하고 있습니다. 하지만 직원에게만 의존하면 작업 속도가 느려지고 특히 계산대에서 고객 불만을 초래할 수 있습니다. 긴 줄은 쇼핑객과 점주 모두에게 불편합니다. 스마트 셀프 계산대는 이 문제를 해결할 수 있는 훌륭한 솔루션입니다.
이러한 카운터는 컴퓨터 비전과 GPU를 사용하여 프로세스 속도를 높여 대기 시간을 단축합니다. 컴퓨터 비전은 이러한 시스템이 물체 감지와 같은 작업을 통해 주변 환경을 보고 이해할 수 있게 해줍니다. YOLO11 같은 고급 모델은 TensorRT 같은 도구로 최적화하면 GPU 장치에서 훨씬 빠르게 실행될 수 있습니다.
이번에 수출되는 모델은 엣지 AI 애플리케이션을 위해 특별히 설계된 NVIDIA 젯슨 나노와 같이 작지만 강력한 하드웨어 장치를 사용하는 스마트 리테일 설정에 매우 적합합니다.
YOLO11 같은 컴퓨터 비전 모델은 제조 산업에서 결함이 있는 제품을 감지하도록 맞춤형으로 학습시킬 수 있습니다. 학습이 완료된 모델은 고성능 AI 시스템을 갖춘 시설에 배포하기 위해 TensorRT 형식으로 내보낼 수 있습니다.
제품이 컨베이어 벨트를 따라 이동하면 카메라가 이미지를 캡처하고, TensorRT 형식으로 실행되는 YOLO11 모델이 이를 실시간으로 분석하여 결함을 발견합니다. 이 설정을 통해 기업은 문제를 빠르고 정확하게 파악하여 오류를 줄이고 효율성을 개선할 수 있습니다.
마찬가지로 제약과 같은 업계에서도 이러한 유형의 시스템을 사용하여 의료용 포장의 결함을 식별하고 있습니다. 실제로 스마트 결함 감지 시스템의 글로벌 시장은 2026년까지 50억 달러 규모로 성장할 것으로 예상됩니다.
TensorRT 통합하면 추론 속도가 빨라지고 대기 시간이 단축되는 등 많은 이점이 있지만, 몇 가지 제한 사항을 염두에 두어야 합니다:
Ultralytics YOLO 모델을 TensorRT 형식으로 내보내면 훨씬 더 빠르고 효율적으로 실행할 수 있으므로 공장의 결함 감지, 스마트 계산대 시스템 구동, 혼잡한 도심 지역 모니터링과 같은 실시간 작업에 이상적입니다.
이 최적화는 예측 속도를 높이고 메모리 및 전력 사용량을 줄임으로써 NVIDIA GPU에서 모델이 더 나은 성능을 발휘하도록 돕습니다. 몇 가지 제한 사항이 있지만, 성능 향상으로 인해 TensorRT 통합은 NVIDIA 하드웨어에서 고속 컴퓨터 비전 시스템을 구축하는 모든 사람에게 훌륭한 선택이 될 수 있습니다.
AI에 대해 자세히 알아보고 싶으신가요? GitHub 리포지토리를 살펴보고, 커뮤니티와 소통하고, 라이선스 옵션을 확인하여 컴퓨터 비전 프로젝트를 시작하세요. 솔루션 페이지에서 제조 분야의 AI와 물류 업계의 컴퓨터 비전과 같은 혁신에 대해 자세히 알아보세요.