Yolo 비전 선전
선전
지금 참여하기

배포를 위한 전용 추론 엔드포인트 대 공유 추론

공유 추론 방식 대신 확장성이 뛰어나고 지연 시간이 짧은 비전 AI 배포를 위해 Ultralytics 플랫폼에서 전용 추론 엔드포인트를 선택해야 하는 시점을 알아보세요.

컴퓨터 비전 프로젝트를 Ultral Ultralytics로 확장하세요

시작하기

최근 저희는 데이터셋 준비와 모델 훈련부터 추론, 배포, 모니터링에 이르기까지 컴퓨터 비전 워크플로우 전반을 한곳에서 관리할 수 있는 엔드투엔드 솔루션인 Ultralytics 선보였습니다. 

컴퓨터 비전 커뮤니티의 피드백을 바탕으로 구축된 이 플랫폼은 비전 AI 애플리케이션의 전체 라이프사이클을 지원하는 통합 기능을 제공함으로써 개발의 각 단계를 간소화하도록 설계되었습니다.

예를 들어, 모델 훈련이 완료되면 다음 단계는 실제 애플리케이션에서 추론을 실행하고 예측을 도출할 수 있도록 모델을 배포하는 것입니다. 이 플랫폼은 다양한 배포 옵션을 제공함으로써 이 과정을 간편하게 만들어 줍니다.

모델을 내보내어 자체 환경에서 실행하거나, 공유 추론을 활용해 신속하게 테스트하거나, 확장성이 뛰어나고 실제 운영 환경에 적합한 애플리케이션을 위해 전용 엔드포인트를 배포할 수 있습니다. 이러한 배포 옵션은 모두 AI 추론을 실행할 수 있게 해 주지만, 각각 다른 단계와 사용 사례를 위해 설계되었습니다. 

그림 1. Ultralytics 확장 가능한 글로벌 비전 AI 모델 배포를 가능하게 합니다 (출처)

모델 내보내기 기능을 통해 자체 인프라에서 모델을 완전히 제어하며 실행할 수 있고, 공유 추론 기능을 사용하면 별도의 설정 없이도 간편하게 테스트와 실험을 진행할 수 있으며, 전용 엔드포인트는 안정적이고 대규모의 운영 워크로드를 위해 설계되었습니다.

언뜻 보면 공유 추론과 전용 엔드포인트는 꽤 비슷해 보일 수 있습니다. 두 방식 모두 모델에 API 요청을 보내고 구조화된 예측 결과를 수신할 수 있게 해주므로, 비전 AI를 애플리케이션에 쉽게 통합할 수 있습니다.

하지만 워크로드가 증가하고 컴퓨터 비전 애플리케이션이 실시간 추론 요청을 처리하기 시작하면, 이러한 옵션 간의 차이점이 더욱 중요해집니다. 이 글에서는 공유 추론과 전용 엔드포인트를 자세히 살펴보고, 두 방식의 차이점, 각각의 사용 시점, 그리고 애플리케이션이 확장됨에 따라 전용 엔드포인트가 더 나은 선택이 되는 이유를 알아보겠습니다.

공유 추론 기능을 활용한 배포 개요

공유 추론은 별도의 인프라를 구축하거나 GPU , 프레임워크 통합, 런타임 구성에 대해 걱정할 필요 없이 모델에 대해 AI 추론을 실행할 수 있는 간편한 방법입니다. 모델의 훈련이나 미세 조정이 완료되면, 플랫폼을 통해 직접 예측을 수행할 수 있습니다.

이 구성에서는 모델이 미국, 유럽, 아시아 태평양 등 주요 지역 전반에 걸쳐 공유되는 멀티테넌트 컴퓨팅 리소스에서 실행됩니다. 요청은 사용 가능한 서비스로 자동 라우팅되므로, GPU 런타임 환경을 별도로 구성할 필요가 없습니다. 모든 과정이 자동으로 처리되므로 쉽게 시작할 수 있습니다.

공유 추론을 사용할 때는 CLI 같은 REST API 모델에 요청을 전송하고, 탐지된 객체, 신뢰도 점수 및 기타 예측 세부 정보와 같은 구조화된 JSON 형식의 출력 결과를 수신합니다. 이를 통해 모델을 원활하게 테스트하고 애플리케이션에 통합할 수 있습니다.

이 시스템은 공유 환경이므로 개발, 테스트 및 가벼운 용도로 설계되었습니다. 예측을 검증하거나 초기 통합을 구축하는 데 적합합니다. 다만 시스템 부하에 따라 성능이 달라질 수 있으며, API 키당 분당 20건의 요청으로 사용량이 제한되어 있어 처리량이 많은 실제 운영 환경의 워크로드에는 적합하지 않습니다.

전반적으로, 공유 추론은 대규모 적용 단계로 넘어가기 전에 모델을 이해하고 개선하는 데 중점을 두는 초기 개발 단계에 가장 적합합니다.

전용 엔드포인트를 사용하여 모델을 전 세계에 배포합니다

전용 엔드포인트는 비전 AI 모델이 격리된 컴퓨팅 리소스에서 실행되는 싱글 테넌트 추론 서비스입니다. 인프라를 공유하는 대신, 각 엔드포인트는 CPU 메모리 등 구성 가능한 리소스를 갖춘 자체 런타임을 보유하므로 성능을 보다 세밀하게 제어할 수 있습니다.

모델을 전용 엔드포인트로 배포하면 고유한 API URL이 할당되고 인증에 API 키가 사용되므로, 애플리케이션에 쉽게 통합할 수 있습니다. 이러한 엔드포인트는 전 세계 43개 리전에 배포할 수 있어, 사용자와 더 가까운 곳에서 추론 작업을 수행함으로써 지연 시간을 줄일 수 있습니다.

그림 2. 전 세계 43개 지역에 전용 엔드포인트를 배포할 수 있습니다 (출처)

주요 장점 중 하나는 자동 확장 기능입니다. 엔드포인트는 들어오는 요청에 따라 자동으로 조정되어, 트래픽이 증가하면 확장하고 수요가 감소하면 축소됩니다. 기본적으로 '0으로 확장(scale-to-zero)' 기능이 활성화되어 있어, 엔드포인트는 유휴 상태일 때 종료되고 필요할 때 다시 시작되므로 리소스 사용을 최적화하는 데 도움이 됩니다.

즉, 전용 엔드포인트는 프로덕션 워크로드를 위해 설계되었습니다. 공유 추론 방식에 비해 일관된 낮은 지연 시간, 더 높은 처리량, 그리고 뛰어난 안정성을 제공합니다. 

또한 전용 엔드포인트에는 요청 제한이 없습니다. 요청이 엔드포인트로 직접 전송되므로, 처리 가능한 트래픽 양은 고정된 제한이 아닌 사용자의 구성 및 확장 규모에 따라 결정됩니다.

이 외에도 내장된 모니터링, 로그, 상태 점검 기능, 그리고 예측 가능한 실행 시간 및 시작 동작 덕분에 모든 요금제에서 track 손쉽게 track 안정적인 배포를 유지할 수 있습니다. 무료 요금제의 경우 콜드 스타트(cold start)는 일반적으로 5~45초가 소요되는 반면, 프로 요금제의 엔드포인트는 웜(warm) 상태를 유지하므로 더 빠르고 예측 가능한 추론 성능을 제공합니다.

간단히 말해, 전용 엔드포인트는 안정적이고 확장 가능하며 고성능의 추론이 필요한 실시간 비전 AI 애플리케이션에 이상적입니다.

공유 추론 대 전용 엔드포인트: 핵심 차이점

공유 추론과 전용 엔드포인트의 차이점을 자세히 살펴보겠습니다:

  • 지연 시간: 공유 환경에서는 리소스 공유로 인해 지연 시간이 달라질 수 있는 반면, 전용 엔드포인트는 보다 일관되고 지연 시간이 짧은 응답을 제공합니다.
  • 지역: 공유 추론 기능은 일부 지역(미국, 유럽, AP)에서만 사용할 수 있는 반면, 전용 엔드포인트는 전 세계 43개 지역에서 배포를 지원합니다.
  • 확장성: 공유 추론 환경에서는 확장 설정을 구성할 수 없는 반면, 전용 엔드포인트는 유입 트래픽에 따라 자동으로 확장됩니다.
  • 요청 제한: 공유 추론 기능은 요청 제한이 적용됩니다(API 키당 분당 20회 요청 또는 API 호출). 반면 전용 엔드포인트에는 플랫폼 차원의 요청 제한이 없습니다.
  • 가격: 테스트 및 개발 단계에서는 추가 비용 없이 공유 추론 기능을 이용할 수 있으며, 전용 엔드포인트는 더 높은 제어력과 확장성을 제공하며, 사용량은 리소스 구성 및 배포 요구 사항에 따라 달라집니다.

왜 전용 엔드포인트가 프로덕션 워크로드에 더 적합한가

AI 및 머신러닝 애플리케이션이 테스트 단계에서 실제 사용 단계로 넘어감에 따라, 성능, 확장성, 신뢰성이 필수적인 요소가 됩니다. 그렇기 때문에 전용 엔드포인트가 공유 추론 방식에 비해 분명한 이점을 제공합니다.

전용 엔드포인트를 사용하면 사전 훈련된 모델이나 사용자 정의 모델이 자체 컴퓨팅 리소스에서 실행되므로, 다른 사용자의 영향으로 인해 성능이 저하되지 않습니다. 이를 통해 지연 시간을 낮고 일관되게 유지할 수 있으며, 이는 비디오 분석 및 모니터링 시스템과 같은 실시간 애플리케이션에 매우 중요합니다.

그림 3. 전용 추론 엔드포인트를 사용한 배포 과정 (출처)

예를 들어, 여러 매장의 실시간 카메라 영상을 처리하는 소매 분석 시스템을 생각해 보세요. 전 세계 43개 지역에 엔드포인트를 배포함으로써, 각 매장에 더 가까운 곳에서 추론 작업을 수행할 수 있어 지연 시간을 줄이고 응답 속도를 향상시킬 수 있습니다. 

리소스가 공유되고 영역이 제한되는 공유 추론 환경에서는, 사용량이 많은 시간대에 성능이 들쑥날쑥할 수 있습니다.

전용 엔드포인트는 더 많은 트래픽을 처리할 수 있을 뿐만 아니라 수요에 따라 자동으로 확장됩니다. 내장된 모니터링, 로그 및 상태 점검 기능을 통해 더 예측 가능한 성능을 제공하므로, 대규모의 지속적인 AI 워크로드에 적합합니다.

비주얼 AI 워크플로우에서 공유 추론의 역할

공유 추론과 전용 엔드포인트의 차이점을 살펴보면서, 공유 추론이 전체 컴퓨터 비전 워크플로우에서 어떤 역할을 하는지 궁금해하실 수 있습니다.

소매 분석 사례를 다시 한번 살펴보겠습니다. 여러 매장에 비전 솔루션을 도입하기 전에, 팀은 일반적으로 실제 데이터에서 솔루션이 어떻게 작동하는지 테스트하고 그 결과를 바탕으로 솔루션을 개선해야 합니다.

공유 추론 기능을 사용하면 별도의 인프라를 구축하지 않고도 매장 카메라에서 촬영한 샘플 이미지나 동영상 프레임을 전송하고 예측 결과를 신속하게 검토할 수 있어 이 과정을 간편하게 진행할 수 있습니다. 이는 모델의 동작을 테스트하고, 잘못된 예측을 디버깅하며, 조명 변화나 매장 레이아웃 변경과 같은 다양한 조건에서 결과를 검증하는 데 특히 유용합니다.

이러한 반복 과정을 통해 팀은 모델을 실제 운영 환경에 적용하기 전에 모델의 정확도와 신뢰성을 높일 수 있습니다. 모델이 이러한 테스트 시나리오에서 우수한 성능을 보이면, 여러 위치에서 실시간으로 활용할 수 있도록 전용 엔드포인트에 배포할 수 있습니다.

공유 추론은 사용 빈도가 낮거나 드문 애플리케이션에도 효과적입니다. 예를 들어, 소규모 소매점은 대규모 배포를 거치지 않고도 가끔씩 매장 내 유동 인구를 분석하거나 특정 시간대의 고객 활동을 검토하는 데 이를 활용할 수 있습니다. 이러한 경우, 공유 추론은 필요에 따라 간편하고 비용 효율적으로 추론을 실행할 수 있는 방법을 제공합니다.

전용 엔드포인트의 실제 활용 사례

AI 애플리케이션이 테스트 단계를 넘어 확장됨에 따라, 배포 방식의 선택이 성능, 확장성 및 사용자 경험에 직접적인 영향을 미치기 시작합니다. 전용 엔드포인트는 안정적인 성능과 낮은 지연 시간을 제공하며 대규모 워크로드를 처리할 수 있는 능력을 갖추고 있어 다양한 산업 분야에서 널리 활용될 수 있습니다.

다음은 전용 엔드포인트가 실제 애플리케이션에서 어떻게 활용될 수 있는지 보여주는 몇 가지 일반적인 사용 사례입니다:

  • 소매 소매 및 비디오 분석: 소매 체인점은 컴퓨터 비전을 활용해 track 동선을 track , 인기 상품을 파악하며, 매장 활동을 실시간으로 모니터링할 수 있습니다. 전용 엔드포인트는 피크 시간대에도 여러 매장 위치 전반에 걸쳐 빠르고 일관된 추론 성능을 보장합니다.
  • 제조 제조 및 품질 검사: 생산 라인에서 모델은 제품이 시스템을 통과할 때 detect 이상 detect 수 있습니다. 전용 엔드포인트는 지속적인 실시간 추론을 지원하여, 팀이 운영 속도를 저하시키지 않고도 문제를 조기에 발견하고 제품 품질을 유지할 수 있도록 돕습니다.
  • 의료 의료 및 의료 영상: 의료 서비스 제공자와 진단 실험실은 X선이나 스캔과 같은 의료 영상을 분석하기 위해 비전 모델을 활용할 수 있습니다. 전용 엔드포인트는 신뢰할 수 있고 일관된 성능을 제공하며, 이는 민감한 데이터를 처리하고 시간이 촉박한 진단을 내릴 때 매우 중요합니다.
  • 창고 및 물류 자동화: 대규모 창고에서는 컨베이어 벨트나 분류 라인과 같이 동일한 시스템을 여러 대 운영하며, 이는 사실상 동일한 설비의 복제본 역할을 합니다. 컴퓨터 비전 모델은 각 복제본을 모니터링하여 물체 막힘이나 물품의 잘못된 경로 배정 같은 detect 수 있습니다. 전용 엔드포인트는 모든 복제본에서 실시간으로 일관된 추론 처리를 보장합니다.

공유 추론에서 전용 엔드포인트로의 전환

Ultralytics 주요 장점 중 하나는 애플리케이션이 확장됨에 따라 공유 추론 환경에서 전용 엔드포인트로 매우 간편하게 전환할 수 있다는 점입니다. 도구를 바꾸거나 설정을 다시 구축할 필요 없이, 동일한 환경 내에서 바로 운영 환경에 적용 가능한 배포 환경으로 전환할 수 있습니다.

공유 추론 기능을 통해 모델을 테스트한 후에는 전용 엔드포인트로 전환하는 것이 다음 단계입니다. 동일한 모델을 엔드포인트에 배포하고, 원하는 리전 및 컴퓨팅 리소스를 선택한 다음, 애플리케이션의 엔드포인트 URL을 업데이트하면 됩니다. 전반적인 통합 방식은 동일하므로, 요청을 전송하거나 응답을 처리하는 방식에는 거의 또는 전혀 변화가 없습니다.

그림 4. Ultralytics 전용 엔드포인트 URL 확인 (출처)

즉, 몇 번의 클릭만으로 테스트 환경에서 프로덕션 환경으로 원활하게 전환할 수 있습니다. 워크로드가 증가하거나 애플리케이션에 더 안정적인 성능이 필요해지면, 기존 워크플로우를 중단하지 않고도 전용 엔드포인트로 전환할 수 있습니다.

Ultralytics 플랫폼에서 전용 엔드포인트를 사용하여 모델을 배포하는 방법에 대해 자세히 알아보려면 Ultralytics 공식 문서를 확인해 주세요.

주요 내용

공유 추론은 테스트와 실험을 시작하기에 훌륭한 출발점이지만, 실제 운영 환경의 워크로드에는 더 높은 일관성과 확장성이 요구됩니다. 애플리케이션이 성장함에 따라 전용 엔드포인트는 실제 사용 환경을 지원하는 데 필요한 성능과 안정성을 제공합니다. 따라서 전용 엔드포인트는 대부분의 실제 운영 환경 배포에 있어 최선의 선택입니다.

커뮤니티에 가입하고 GitHub 저장소를 살펴보시면 컴퓨터 비전 모델에 대해 더 자세히 알아보실 수 있습니다. 솔루션 페이지에서 농업 분야 AI로봇 공학 분야의 컴퓨터 비전과 같은 다양한 적용 사례를 확인해 보세요. 라이선스 옵션을 살펴보시고 비전 AI를 시작해 보세요. 

함께 AI의 미래를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요