공유 추론 방식 대신 확장성이 뛰어나고 지연 시간이 짧은 비전 AI 배포를 위해 Ultralytics 플랫폼에서 전용 추론 엔드포인트를 선택해야 하는 시점을 알아보세요.
공유 추론 방식 대신 확장성이 뛰어나고 지연 시간이 짧은 비전 AI 배포를 위해 Ultralytics 플랫폼에서 전용 추론 엔드포인트를 선택해야 하는 시점을 알아보세요.
최근 저희는 데이터셋 준비와 모델 훈련부터 추론, 배포, 모니터링에 이르기까지 컴퓨터 비전 워크플로우 전반을 한곳에서 관리할 수 있는 엔드투엔드 솔루션인 Ultralytics 선보였습니다.
컴퓨터 비전 커뮤니티의 피드백을 바탕으로 구축된 이 플랫폼은 비전 AI 애플리케이션의 전체 라이프사이클을 지원하는 통합 기능을 제공함으로써 개발의 각 단계를 간소화하도록 설계되었습니다.
예를 들어, 모델 훈련이 완료되면 다음 단계는 실제 애플리케이션에서 추론을 실행하고 예측을 도출할 수 있도록 모델을 배포하는 것입니다. 이 플랫폼은 다양한 배포 옵션을 제공함으로써 이 과정을 간편하게 만들어 줍니다.
모델을 내보내어 자체 환경에서 실행하거나, 공유 추론을 활용해 신속하게 테스트하거나, 확장성이 뛰어나고 실제 운영 환경에 적합한 애플리케이션을 위해 전용 엔드포인트를 배포할 수 있습니다. 이러한 배포 옵션은 모두 AI 추론을 실행할 수 있게 해 주지만, 각각 다른 단계와 사용 사례를 위해 설계되었습니다.

모델 내보내기 기능을 통해 자체 인프라에서 모델을 완전히 제어하며 실행할 수 있고, 공유 추론 기능을 사용하면 별도의 설정 없이도 간편하게 테스트와 실험을 진행할 수 있으며, 전용 엔드포인트는 안정적이고 대규모의 운영 워크로드를 위해 설계되었습니다.
언뜻 보면 공유 추론과 전용 엔드포인트는 꽤 비슷해 보일 수 있습니다. 두 방식 모두 모델에 API 요청을 보내고 구조화된 예측 결과를 수신할 수 있게 해주므로, 비전 AI를 애플리케이션에 쉽게 통합할 수 있습니다.
하지만 워크로드가 증가하고 컴퓨터 비전 애플리케이션이 실시간 추론 요청을 처리하기 시작하면, 이러한 옵션 간의 차이점이 더욱 중요해집니다. 이 글에서는 공유 추론과 전용 엔드포인트를 자세히 살펴보고, 두 방식의 차이점, 각각의 사용 시점, 그리고 애플리케이션이 확장됨에 따라 전용 엔드포인트가 더 나은 선택이 되는 이유를 알아보겠습니다.
공유 추론은 별도의 인프라를 구축하거나 GPU , 프레임워크 통합, 런타임 구성에 대해 걱정할 필요 없이 모델에 대해 AI 추론을 실행할 수 있는 간편한 방법입니다. 모델의 훈련이나 미세 조정이 완료되면, 플랫폼을 통해 직접 예측을 수행할 수 있습니다.
이 구성에서는 모델이 미국, 유럽, 아시아 태평양 등 주요 지역 전반에 걸쳐 공유되는 멀티테넌트 컴퓨팅 리소스에서 실행됩니다. 요청은 사용 가능한 서비스로 자동 라우팅되므로, GPU 런타임 환경을 별도로 구성할 필요가 없습니다. 모든 과정이 자동으로 처리되므로 쉽게 시작할 수 있습니다.
공유 추론을 사용할 때는 CLI 같은 REST API 모델에 요청을 전송하고, 탐지된 객체, 신뢰도 점수 및 기타 예측 세부 정보와 같은 구조화된 JSON 형식의 출력 결과를 수신합니다. 이를 통해 모델을 원활하게 테스트하고 애플리케이션에 통합할 수 있습니다.
이 시스템은 공유 환경이므로 개발, 테스트 및 가벼운 용도로 설계되었습니다. 예측을 검증하거나 초기 통합을 구축하는 데 적합합니다. 다만 시스템 부하에 따라 성능이 달라질 수 있으며, API 키당 분당 20건의 요청으로 사용량이 제한되어 있어 처리량이 많은 실제 운영 환경의 워크로드에는 적합하지 않습니다.
전반적으로, 공유 추론은 대규모 적용 단계로 넘어가기 전에 모델을 이해하고 개선하는 데 중점을 두는 초기 개발 단계에 가장 적합합니다.
전용 엔드포인트는 비전 AI 모델이 격리된 컴퓨팅 리소스에서 실행되는 싱글 테넌트 추론 서비스입니다. 인프라를 공유하는 대신, 각 엔드포인트는 CPU 메모리 등 구성 가능한 리소스를 갖춘 자체 런타임을 보유하므로 성능을 보다 세밀하게 제어할 수 있습니다.
모델을 전용 엔드포인트로 배포하면 고유한 API URL이 할당되고 인증에 API 키가 사용되므로, 애플리케이션에 쉽게 통합할 수 있습니다. 이러한 엔드포인트는 전 세계 43개 리전에 배포할 수 있어, 사용자와 더 가까운 곳에서 추론 작업을 수행함으로써 지연 시간을 줄일 수 있습니다.

주요 장점 중 하나는 자동 확장 기능입니다. 엔드포인트는 들어오는 요청에 따라 자동으로 조정되어, 트래픽이 증가하면 확장하고 수요가 감소하면 축소됩니다. 기본적으로 '0으로 확장(scale-to-zero)' 기능이 활성화되어 있어, 엔드포인트는 유휴 상태일 때 종료되고 필요할 때 다시 시작되므로 리소스 사용을 최적화하는 데 도움이 됩니다.
즉, 전용 엔드포인트는 프로덕션 워크로드를 위해 설계되었습니다. 공유 추론 방식에 비해 일관된 낮은 지연 시간, 더 높은 처리량, 그리고 뛰어난 안정성을 제공합니다.
또한 전용 엔드포인트에는 요청 제한이 없습니다. 요청이 엔드포인트로 직접 전송되므로, 처리 가능한 트래픽 양은 고정된 제한이 아닌 사용자의 구성 및 확장 규모에 따라 결정됩니다.
이 외에도 내장된 모니터링, 로그, 상태 점검 기능, 그리고 예측 가능한 실행 시간 및 시작 동작 덕분에 모든 요금제에서 track 손쉽게 track 안정적인 배포를 유지할 수 있습니다. 무료 요금제의 경우 콜드 스타트(cold start)는 일반적으로 5~45초가 소요되는 반면, 프로 요금제의 엔드포인트는 웜(warm) 상태를 유지하므로 더 빠르고 예측 가능한 추론 성능을 제공합니다.
간단히 말해, 전용 엔드포인트는 안정적이고 확장 가능하며 고성능의 추론이 필요한 실시간 비전 AI 애플리케이션에 이상적입니다.
공유 추론과 전용 엔드포인트의 차이점을 자세히 살펴보겠습니다:
AI 및 머신러닝 애플리케이션이 테스트 단계에서 실제 사용 단계로 넘어감에 따라, 성능, 확장성, 신뢰성이 필수적인 요소가 됩니다. 그렇기 때문에 전용 엔드포인트가 공유 추론 방식에 비해 분명한 이점을 제공합니다.
전용 엔드포인트를 사용하면 사전 훈련된 모델이나 사용자 정의 모델이 자체 컴퓨팅 리소스에서 실행되므로, 다른 사용자의 영향으로 인해 성능이 저하되지 않습니다. 이를 통해 지연 시간을 낮고 일관되게 유지할 수 있으며, 이는 비디오 분석 및 모니터링 시스템과 같은 실시간 애플리케이션에 매우 중요합니다.

예를 들어, 여러 매장의 실시간 카메라 영상을 처리하는 소매 분석 시스템을 생각해 보세요. 전 세계 43개 지역에 엔드포인트를 배포함으로써, 각 매장에 더 가까운 곳에서 추론 작업을 수행할 수 있어 지연 시간을 줄이고 응답 속도를 향상시킬 수 있습니다.
리소스가 공유되고 영역이 제한되는 공유 추론 환경에서는, 사용량이 많은 시간대에 성능이 들쑥날쑥할 수 있습니다.
전용 엔드포인트는 더 많은 트래픽을 처리할 수 있을 뿐만 아니라 수요에 따라 자동으로 확장됩니다. 내장된 모니터링, 로그 및 상태 점검 기능을 통해 더 예측 가능한 성능을 제공하므로, 대규모의 지속적인 AI 워크로드에 적합합니다.
공유 추론과 전용 엔드포인트의 차이점을 살펴보면서, 공유 추론이 전체 컴퓨터 비전 워크플로우에서 어떤 역할을 하는지 궁금해하실 수 있습니다.
소매 분석 사례를 다시 한번 살펴보겠습니다. 여러 매장에 비전 솔루션을 도입하기 전에, 팀은 일반적으로 실제 데이터에서 솔루션이 어떻게 작동하는지 테스트하고 그 결과를 바탕으로 솔루션을 개선해야 합니다.
공유 추론 기능을 사용하면 별도의 인프라를 구축하지 않고도 매장 카메라에서 촬영한 샘플 이미지나 동영상 프레임을 전송하고 예측 결과를 신속하게 검토할 수 있어 이 과정을 간편하게 진행할 수 있습니다. 이는 모델의 동작을 테스트하고, 잘못된 예측을 디버깅하며, 조명 변화나 매장 레이아웃 변경과 같은 다양한 조건에서 결과를 검증하는 데 특히 유용합니다.
이러한 반복 과정을 통해 팀은 모델을 실제 운영 환경에 적용하기 전에 모델의 정확도와 신뢰성을 높일 수 있습니다. 모델이 이러한 테스트 시나리오에서 우수한 성능을 보이면, 여러 위치에서 실시간으로 활용할 수 있도록 전용 엔드포인트에 배포할 수 있습니다.
공유 추론은 사용 빈도가 낮거나 드문 애플리케이션에도 효과적입니다. 예를 들어, 소규모 소매점은 대규모 배포를 거치지 않고도 가끔씩 매장 내 유동 인구를 분석하거나 특정 시간대의 고객 활동을 검토하는 데 이를 활용할 수 있습니다. 이러한 경우, 공유 추론은 필요에 따라 간편하고 비용 효율적으로 추론을 실행할 수 있는 방법을 제공합니다.
AI 애플리케이션이 테스트 단계를 넘어 확장됨에 따라, 배포 방식의 선택이 성능, 확장성 및 사용자 경험에 직접적인 영향을 미치기 시작합니다. 전용 엔드포인트는 안정적인 성능과 낮은 지연 시간을 제공하며 대규모 워크로드를 처리할 수 있는 능력을 갖추고 있어 다양한 산업 분야에서 널리 활용될 수 있습니다.
다음은 전용 엔드포인트가 실제 애플리케이션에서 어떻게 활용될 수 있는지 보여주는 몇 가지 일반적인 사용 사례입니다:
Ultralytics 주요 장점 중 하나는 애플리케이션이 확장됨에 따라 공유 추론 환경에서 전용 엔드포인트로 매우 간편하게 전환할 수 있다는 점입니다. 도구를 바꾸거나 설정을 다시 구축할 필요 없이, 동일한 환경 내에서 바로 운영 환경에 적용 가능한 배포 환경으로 전환할 수 있습니다.
공유 추론 기능을 통해 모델을 테스트한 후에는 전용 엔드포인트로 전환하는 것이 다음 단계입니다. 동일한 모델을 엔드포인트에 배포하고, 원하는 리전 및 컴퓨팅 리소스를 선택한 다음, 애플리케이션의 엔드포인트 URL을 업데이트하면 됩니다. 전반적인 통합 방식은 동일하므로, 요청을 전송하거나 응답을 처리하는 방식에는 거의 또는 전혀 변화가 없습니다.

즉, 몇 번의 클릭만으로 테스트 환경에서 프로덕션 환경으로 원활하게 전환할 수 있습니다. 워크로드가 증가하거나 애플리케이션에 더 안정적인 성능이 필요해지면, 기존 워크플로우를 중단하지 않고도 전용 엔드포인트로 전환할 수 있습니다.
Ultralytics 플랫폼에서 전용 엔드포인트를 사용하여 모델을 배포하는 방법에 대해 자세히 알아보려면 Ultralytics 공식 문서를 확인해 주세요.
공유 추론은 테스트와 실험을 시작하기에 훌륭한 출발점이지만, 실제 운영 환경의 워크로드에는 더 높은 일관성과 확장성이 요구됩니다. 애플리케이션이 성장함에 따라 전용 엔드포인트는 실제 사용 환경을 지원하는 데 필요한 성능과 안정성을 제공합니다. 따라서 전용 엔드포인트는 대부분의 실제 운영 환경 배포에 있어 최선의 선택입니다.
커뮤니티에 가입하고 GitHub 저장소를 살펴보시면 컴퓨터 비전 모델에 대해 더 자세히 알아보실 수 있습니다. 솔루션 페이지에서 농업 분야 AI 및 로봇 공학 분야의 컴퓨터 비전과 같은 다양한 적용 사례를 확인해 보세요. 라이선스 옵션을 살펴보시고 비전 AI를 시작해 보세요.
미래의 머신러닝 여정을 시작하세요