욜로 비전 선전
선전
지금 참여하기

ExecuTorch 통합을 사용하여 Ultralytics YOLO 모델 배포

Abirami Vina

5분 분량

2025년 11월 4일

에지 및 모바일 장치에서 효율적인 PyTorch 네이티브 배포를 위해 Ultralytics YOLO11과 같은 Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내는 방법을 살펴보세요.

자동화된 품질 검사, 자율 드론 또는 스마트 보안 시스템과 같은 특정 컴퓨터 비전 애플리케이션은 이미지를 캡처하는 센서와 가까운 곳에서 Ultralytics YOLO11과 같은 Ultralytics YOLO 모델이 실행될 때 가장 뛰어난 성능을 발휘합니다. 즉, 이러한 모델은 데이터를 클라우드로 전송하지 않고 카메라, 드론 또는 임베디드 시스템에서 생성된 곳에서 직접 처리해야 합니다. 

엣지 AI라고 하는 이 접근 방식을 사용하면 모델이 데이터가 캡처된 디바이스에서 직접 추론을 수행할 수 있습니다. 원격 서버에 의존하지 않고 로컬에서 정보를 처리함으로써 시스템은 인터넷 연결이 제한적이거나 전혀 없는 환경에서도 지연 시간을 줄이고 데이터 프라이버시를 강화하며 안정성을 향상시킬 수 있습니다.

예를 들어, 매분 수천 개의 제품을 검사하는 제조용 카메라나 복잡한 환경을 탐색하는 드론은 클라우드 처리로 인한 지연을 감당할 수 없습니다. 장치에서 직접 YOLO11을 실행하면 장치에서 즉시 추론할 수 있습니다.

엣지에서 더 쉽고 효율적으로 울트라틱스 YOLO 모델을 실행할 수 있도록, 울트라틱스에서 지원하는 새로운 ExecuTorch 통합은 모델을 모바일 및 임베디드 장치로 직접 내보내고 배포할 수 있는 간소화된 방법을 제공합니다. ExecuTorch는 파이토치 엣지 에코시스템의 일부이며 휴대폰, 웨어러블, 임베디드 보드, 마이크로컨트롤러 등 모바일 및 엣지 하드웨어에서 직접 AI 모델을 실행할 수 있는 엔드투엔드 솔루션을 제공합니다.

이 통합을 통해 YOLO11과 같은 울트라리틱스 YOLO 모델을 교육부터 엣지 디바이스 배포까지 쉽게 수행할 수 있습니다. YOLO11의 비전 기능과 ExecuTorch의 경량 런타임 및 PyTorch 내보내기 파이프라인을 결합함으로써 사용자는 PyTorch 기반 추론의 정확성과 성능을 유지하면서 엣지 하드웨어에서 효율적으로 실행되는 모델을 배포할 수 있습니다.

이 글에서는 ExecuTorch 통합이 어떻게 작동하는지, 왜 엣지 AI 애플리케이션에 적합한지, 그리고 ExecuTorch를 사용하여 Ultralytics YOLO 모델을 배포하는 방법을 자세히 살펴보겠습니다. 지금 시작하세요!

ExecuTorch란 무엇인가요?

일반적으로 파이토치에서 모델을 훈련할 때는 클라우드의 강력한 서버나 그래픽 처리 장치(GPU)에서 실행됩니다. 그러나 동일한 모델을 스마트폰, 드론 또는 마이크로컨트롤러와 같은 모바일 또는 임베디드 장치에 배포하려면 제한된 컴퓨팅 성능, 메모리 및 연결성을 처리할 수 있는 특수 솔루션이 필요합니다.

이것이 바로 ExecuTorch가 제공하는 기능입니다. ExecuTorch는 모바일, 임베디드, 엣지 플랫폼 전반에서 효율적인 온디바이스 추론을 가능하게 하는 PyTorch Edge 에코시스템의 일부로 개발된 엔드투엔드 솔루션입니다. 이 솔루션은 파이토치의 기능을 클라우드 너머로 확장하여 로컬 기기에서 직접 AI 모델을 실행할 수 있게 해줍니다.

파이토치 추론을 엣지로 가져오기

ExecuTorch의 핵심은 파이토치 모델을 기기에서 직접 실행할 수 있는 경량 C++ 런타임을 제공하는 것입니다. 빠른 로딩, 더 작은 메모리 사용량, 향상된 휴대성을 위해 최적화된 내보내기 형식인 PyTorch ExecuTorch(.pte) 모델 형식을 사용합니다. 

효율적인 중앙 처리 장치(CPU) 추론을 위한 기본 백엔드로 XNNPACK을 지원하며 Core ML, Metal, Vulkan, Qualcomm, MediaTek, Arm EthosU, OpenVINO 등을 포함한 광범위한 하드웨어 백엔드에서 호환성을 확장합니다. 

이러한 백엔드는 모바일, 임베디드, 특수 엣지 기기에서 최적화된 가속을 지원합니다. 또한 ExecuTorch는 PyTorch 내보내기 파이프라인과 통합되어 양자화 및 동적 형상 처리와 같은 고급 기능을 지원하여 다양한 배포 환경에서 성능과 적응성을 개선합니다.

양자화는 고정밀 값(예: 32비트 부동 소수점)을 저정밀 값으로 변환하여 모델 크기를 줄이고 추론 속도를 높이며, 동적 형상 처리는 모델이 다양한 입력 크기를 효율적으로 처리할 수 있도록 하는 데 사용됩니다. 이 두 가지 기능은 리소스가 제한된 엣지 디바이스에서 AI 모델을 실행하는 데 매우 중요합니다.

그림 1. ExecuTorch 작동 방식 살펴보기(출처)

엣지 하드웨어를 위한 통합 레이어

ExecuTorch는 런타임 외에도 여러 하드웨어 백엔드를 위한 통합 추상화 레이어 역할도 수행합니다. 간단히 말해, 하드웨어별 세부 사항을 추상화하고 모델이 CPU, GPU 및 신경 처리 장치(NPU)를 비롯한 다양한 처리 장치와 상호 작용하는 방식을 관리합니다.

모델을 내보낸 후에는 특정 디바이스에 가장 적합한 백엔드를 타겟팅하도록 ExecuTorch를 구성할 수 있습니다. 개발자는 맞춤형 디바이스별 코드를 작성하거나 별도의 변환 워크플로를 유지 관리할 필요 없이 다양한 하드웨어에 효율적으로 모델을 배포할 수 있습니다.

모듈식 휴대용 설계와 원활한 PyTorch 통합으로 인해 ExecuTorch는 Ultralytics YOLO11과 같은 컴퓨터 비전 모델을 모바일 및 임베디드 시스템에 배포하는 데 탁월한 옵션입니다. 모델 훈련과 실제 배포 사이의 격차를 해소하여 엣지 AI를 더 빠르고 효율적이며 쉽게 구현할 수 있도록 지원합니다.

ExecuTorch의 주요 기능

Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내는 방법을 살펴보기 전에, ExecuTorch가 엣지 환경에 AI를 배포하는 데 신뢰할 수 있는 옵션이 되는 이유를 살펴보겠습니다.

다음은 주요 기능 중 일부를 간략히 소개합니다:

  • 양자화 지원: ExecuTorch는 모델 크기를 줄이고 추론 속도를 높이기 위해 고정밀 값을 저정밀 값으로 변환하는 기술인 모델 양자화를 지원합니다. 이를 통해 거의 동일한 수준의 정확도를 유지하면서 엣지 디바이스에서 모델을 더 빠르게 실행하고 더 적은 메모리를 사용할 수 있습니다.
  • 효율적인 메모리 사용: ExecuTorch의 가장 큰 장점 중 하나는 메모리 처리 방식입니다. 지연 시간과 전력 오버헤드를 유발할 수 있는 동적 메모리 할당에 의존하는 대신, ExecuTorch는 AOT(Ahead-of-Time) 메모리 계획을 사용합니다. 내보내기 중에 모델 그래프를 분석하여 각 작업에 필요한 메모리 양을 미리 계산합니다. 이를 통해 런타임이 정적 메모리 계획을 사용하여 모델을 실행할 수 있으므로 예측 가능한 성능을 보장하고 RAM 또는 처리 용량이 제한된 장치에서 속도 저하나 충돌을 방지할 수 있습니다.
  • 기본 제공 모델 메타데이터: Ultralytics에서 지원하는 통합을 사용하여 내보낼 때 각 모델에는 입력 이미지 크기, 클래스 이름 및 구성 매개변수와 같은 중요한 메타데이터가 포함된 YAML 파일이 포함됩니다. 이 추가 파일은 다양한 애플리케이션에 대한 모델 통합을 간소화하고 여러 에지 플랫폼에서 일관된 동작을 보장합니다.

Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내는 방법

이제 ExecuTorch가 제공하는 기능을 더 잘 이해했으니, 이제 Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내는 방법을 살펴보겠습니다.

1단계: Ultralytics Python 패키지 설치

시작하려면 패키지 인스톨러인 pip를 사용하여 울트라 애널리틱스 파이썬 패키지를 설치해야 합니다. 터미널이나 명령 프롬프트에서 "pip install ultralytics"를 실행하면 됩니다. 

Jupyter Notebook 또는 Google Colab 환경에서 작업하는 경우, "!pip install ultralytics"와 같이 명령 앞에 느낌표를 추가하기만 하면 됩니다. 설치가 완료되면 Ultralytics 패키지는 Ultralytics YOLO11을 포함하여 컴퓨터 비전 모델을 훈련, 테스트 및 내보내는 데 필요한 모든 도구를 제공합니다.

설치 중 또는 모델을 내보내는 동안 문제가 발생하는 경우, 공식 Ultralytics 설명서 및 일반적인 문제 가이드에 자세한 문제 해결 단계와 모범 사례가 나와 있어 원활하게 시작하고 실행하는 데 도움이 됩니다.

2단계: Ultralytics YOLO11 내보내기

Ultralytics 패키지를 설치한 후, YOLO11 모델의 변형을 로드하고 ExecuTorch 형식으로 내보낼 수 있습니다. 예를 들어, "yolo11n.pt"와 같이 사전 학습된 모델을 사용하고 내보내기 함수를 호출하여 형식을 "executorch"로 설정하여 내보낼 수 있습니다. 

이렇게 하면 최적화된 모델 파일(.pte)과 이미지 크기 및 클래스 이름과 같은 중요한 세부 정보가 포함된 별도의 메타데이터 YAML 파일이 포함된 "yolo11n_executorch_model"이라는 디렉터리가 생성됩니다.

다음은 모델을 내보내는 코드입니다:

from ultralytics import YOLO

model = YOLO("yolo11n.pt")

model.export(format="executorch")

3단계: 모델 내보내기 후 추론 실행하기

내보낸 모델은 ExecuTorch 런타임을 사용하여 엣지 및 모바일 디바이스에 배포할 준비가 완료된 것입니다. 내보낸 .pte 모델 파일을 애플리케이션에 로드하여 클라우드 연결 없이도 실시간 온디바이스 추론을 실행할 수 있습니다.

예를 들어, 아래 코드 스니펫은 내보낸 모델을 로드하고 추론을 실행하는 방법을 보여줍니다. 추론이란 간단히 말해 학습된 모델을 사용하여 새로운 데이터를 예측하는 것을 의미합니다. 여기서는 공개 URL에서 가져온 버스 이미지에 대해 모델을 테스트합니다.

executorch_model = YOLO("yolo11n_executorch_model")

results = executorch_model.predict("https://ultralytics.com/images/bus.jpg", save=True)

코드를 실행하면 "runs/detect/predict" 폴더에 감지된 오브젝트가 저장된 출력 이미지를 확인할 수 있습니다. 

그림 2. 내보낸 YOLO11 모델을 ExecuTorch 형식으로 사용하여 오브젝트 감지.

ExecuTorch 통합 사용의 이점

Ultralytics에서 지원하는 다양한 내보내기 옵션을 살펴보면서 ExecuTorch 통합의 특별한 점이 무엇인지 궁금하실 것입니다. 핵심적인 차이점은 성능, 단순성, 유연성을 얼마나 잘 결합하여 모바일 및 에지 디바이스에 강력한 AI 모델을 직접 쉽게 배포할 수 있게 해주는지에 있습니다.

ExecuTorch 통합을 사용하면 얻을 수 있는 몇 가지 주요 이점을 살펴보세요:

  • 유연한 배포 옵션: 모바일 애플리케이션, 임베디드 시스템, IoT(사물 인터넷) 디바이스, 특수 엣지 AI 하드웨어에 ExecuTorch 모델을 배포할 수 있습니다. 이러한 유연성 덕분에 개발자는 다양한 플랫폼과 환경에서 일관되게 작동하는 확장 가능한 AI 솔루션을 구축할 수 있습니다.
  • 벤치마크에서 입증된 성능: 라즈베리 파이 5와 같은 기기에서 테스트한 결과, ExecuTorch 포맷으로 내보낸 YOLO11 모델은 거의 동일한 정확도로 파이토치 모델보다 약 2배 빠르게 실행되는 것으로 나타났습니다.
  • 유연한 통합 API: ExecuTorch는 iOS, Android 및 임베디드 Linux용 C++, Kotlin 및 Objective-C API를 제공하여 개발자가 YOLO 모델을 기본 앱에 직접 통합할 수 있도록 지원합니다.
  • 하드웨어 가속 지원: ExecuTorch는 모바일 GPU용 Vulkan 및 Metal을 비롯한 여러 하드웨어 가속 백엔드를 지원하며, OpenCL 및 기타 공급업체별 API에 대한 통합을 옵션으로 제공합니다. 또한 NPU 및 DSP와 같은 전용 가속기를 활용하여 CPU 전용 추론에 비해 상당한 속도 향상을 달성할 수 있습니다.

YOLO11과 ExecuTorch 내보내기의 실제 적용 사례

최근 Ultralytics는 온디바이스 추론에 대한 초기 지원과 파이토치 생태계에 대한 지속적인 기여를 인정받아 파이토치 엑큐토치 성공 사례로 선정되었습니다. 이러한 인정은 모바일 및 엣지 플랫폼에서 고성능 AI에 대한 접근성을 높인다는 공동의 목표를 반영합니다.

클라우드에서 엣지까지: ExecuTorch와 YOLO11이 비전 AI를 실현하는 방법

실제로는 스마트폰부터 임베디드 시스템까지 모든 곳에서 효율적으로 실행되는 비전 AI 솔루션의 모습을 볼 수 있습니다. 예를 들어, 제조 분야에서 엣지 디바이스는 생산 라인을 모니터링하고 실시간으로 결함을 감지하는 데 중요한 역할을 합니다.

그림 3. YOLO11을 사용하여 제조 조립 라인을 분석하는 예시.(출처)

처리를 위해 이미지나 센서 데이터를 클라우드로 전송하여 지연이 발생하고 인터넷 연결에 따라 달라질 수 있는 대신 ExecuTorch 통합을 통해 YOLO11 모델을 로컬 하드웨어에서 직접 실행할 수 있습니다. 즉, 공장은 제한된 컴퓨팅 리소스로 운영하면서 품질 문제를 즉시 감지하고 가동 중단 시간을 줄이며 데이터 프라이버시를 유지할 수 있습니다.

다음은 ExecuTorch 통합 및 Ultralytics YOLO 모델을 적용할 수 있는 몇 가지 다른 예입니다:

  • 스마트 시티: 도시에서는 ExecuTorch를 통해 로컬에서 YOLO11 모델을 실행함으로써 교통 체증 감지부터 위험 식별, 전반적인 이동성 및 안전 개선에 이르기까지 데이터 기반의 의사 결정을 더 빠르게 내릴 수 있습니다.
  • 리테일 및 물류창고: 소매업체는 온디바이스 추론을 통해 클라우드 연결에 의존하지 않고도 진열대 모니터링, 재고 추적, 패키지 검사를 자동화하고 빠르고 안전하게 수행할 수 있습니다.
  • 로보틱스 및 드론: 엣지에 최적화된 YOLO11 모델을 통해 로봇과 드론은 인터넷 접속 없이도 사물을 인식하고 환경을 탐색하며 실시간으로 의사 결정을 내릴 수 있습니다.

그림 4. YOLO11을 사용하여 교통량 내 차량 감지 및 계수(출처)

주요 내용

Ultralytics YOLO 모델을 ExecuTorch 형식으로 내보내면 스마트폰, 태블릿, 라즈베리 파이와 같은 임베디드 시스템을 포함한 다양한 디바이스에 컴퓨터 비전 모델을 쉽게 배포할 수 있습니다. 즉, 클라우드 연결에 의존하지 않고도 최적화된 온디바이스 추론을 실행할 수 있어 속도, 개인정보 보호, 안정성을 개선할 수 있습니다.

ExecuTorch와 함께 Ultralytics는 TensorRT, OpenVINO, CoreML 등을 포함한 광범위한 통합을 지원하여 개발자가 여러 플랫폼에서 모델을 유연하게 실행할 수 있도록 합니다. Vision AI 채택이 증가함에 따라 이러한 통합은 실제 환경에서 효율적으로 작동하도록 구축된 지능형 시스템의 배포를 간소화합니다.

AI에 대해 궁금하신가요? GitHub 리포지토리를 확인하고, 커뮤니티에 가입하고, 라이선스 옵션을 살펴보고 Vision AI 프로젝트를 시작하세요. 솔루션 페이지에서 소매업의 AI와 물류의 컴퓨터 비전과 같은 혁신에 대해 자세히 알아보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.