YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

모델 서빙

모델 서빙의 필수 사항을 배우십시오. 실시간 예측, 확장성 및 애플리케이션에 대한 원활한 통합을 위해 AI 모델을 배포하십시오.

모델 서빙은 학습된 머신러닝(ML) 모델이 입력 데이터를 받아 프로덕션 환경에서 예측 결과를 반환할 수 있도록 하는 프로세스입니다. 모델이 학습되고 검증되면, 서빙은 정적인 파일을 실제 애플리케이션을 구동할 수 있는 활성 운영 도구로 변환하는 중요한 단계입니다. 여기에는 모델을 서버에 배포하고 다른 소프트웨어 시스템이 실시간 추론을 위해 모델과 통신할 수 있도록 API와 같은 인터페이스를 만드는 과정이 포함됩니다.

모델 제공은 밀접하게 관련되어 있지만, 모델 배포의 광범위한 프로세스 내의 특정 구성 요소입니다. 배포는 인프라 설정 및 모니터링을 포함하여 모델을 프로덕션 환경에 통합하는 전체 워크플로를 포괄합니다. 모델 제공은 모델을 실행하고 추론 요청을 효율적으로 처리하는 역할을 하는 인프라의 특정 부분을 의미합니다.

모델 서빙의 주요 구성 요소

강력한 모델 제공 시스템은 빠르고 안정적인 예측을 제공하기 위해 함께 작동하는 여러 통합 구성 요소로 구성됩니다.

  • 모델 형식: 서빙하기 전에 모델을 표준화된 형식으로 패키징해야 합니다. ONNX와 같은 형식은 다양한 프레임워크 간의 상호 운용성을 보장합니다. 최대 성능을 위해 NVIDIA GPUTensorRT와 같은 도구를 사용하여 모델을 최적화할 수 있습니다.
  • 서빙 프레임워크: 모델을 로드하고, GPU와 같은 하드웨어 리소스를 관리하고, 추론 요청을 처리하는 특수 소프트웨어입니다. 널리 사용되는 프레임워크로는 TensorFlow Serving, PyTorch Serve 및 고성능 NVIDIA Triton Inference Server가 있으며, 당사의 Triton 통합 가이드를 통해 Ultralytics 모델과 함께 사용할 수 있습니다.
  • API 엔드포인트: 이는 클라이언트 애플리케이션이 데이터(예: 이미지 또는 텍스트)를 보내고 모델의 예측을 받을 수 있도록 하는 통신 게이트웨이입니다. REST 및 gRPC는 이 목적에 사용되는 일반적인 API 프로토콜입니다.
  • 인프라: 모델이 실행되는 물리적 또는 가상 하드웨어입니다. 이는 온프레미스 서버에서 클라우드 컴퓨팅 플랫폼(예: Amazon SageMakerGoogle Cloud AI Platform)에 이르기까지 다양합니다. 짧은 지연 시간이 필요한 애플리케이션의 경우 모델은 에지 AI 장치에서 제공되는 경우가 많습니다. Docker와 같은 도구를 사용한 컨테이너화는 이식 가능하고 확장 가능한 서비스 환경을 만드는 데 필수적입니다.
  • 모니터링 및 로깅: 모델 성능 및 시스템 상태를 지속적으로 추적합니다. 여기에는 추론 지연 시간 및 처리량과 같은 지표를 모니터링하고 시간이 지남에 따라 모델 정확도를 저하시킬 수 있는 데이터 드리프트와 같은 문제를 감시하는 것이 포함됩니다. 모델 모니터링 가이드에서 자세히 알아볼 수 있습니다.

실제 애플리케이션

모델 서빙은 수많은 AI 기반 기능의 핵심 엔진입니다.

  1. AI 기반 재고 관리: 한 소매 회사가 Ultralytics YOLO11 모델을 사용하여 실시간 재고 관리를 수행합니다. 이 모델은 ONNX 형식으로 패키징되어 매장 내 소형 에지 컴퓨터에서 실행됩니다. 카메라는 비디오 피드를 제공 엔드포인트로 전송하고, 엔드포인트는 객체 탐지를 수행하여 선반의 품목 수를 세고 재고가 부족할 때 알림을 보냅니다.
  2. 클라우드 기반 의료 영상 분석: 한 병원 시스템이 정교한 컴퓨터 비전 모델을 의료 영상 분석에 배포합니다. 큰 모델 크기와 계산 요구 사항으로 인해 여러 GPU가 있는 강력한 클라우드 서버에서 제공됩니다. 방사선 전문의는 보안 포털을 통해 고해상도 스캔을 업로드하고, 이는 서비스 API를 호출합니다. 모델은 잠재적 이상 징후를 식별하는 데 도움이 되는 예측을 반환하여 진단 속도와 정확도를 향상시킵니다.

MLOps의 역할

모델 서빙은 머신러닝 운영(MLOps)의 핵심 요소입니다. 효과적인 MLOps 전략은 데이터 전처리모델 학습에서부터 서빙 및 모니터링에 이르기까지 전체 라이프사이클이 자동화되고 안정적이며 확장 가능하도록 보장합니다. Ultralytics HUB와 같은 플랫폼은 이 전체 워크플로우를 간소화하도록 설계되었으며, 컴퓨터 비전 모델을 효과적으로 학습, 버전 관리 및 서빙할 수 있는 통합 솔루션을 제공합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.