용어집

모델 서빙

실시간 예측, 확장성, 애플리케이션과의 원활한 통합을 위해 AI 모델을 배포하는 모델 제공의 필수 요소에 대해 알아보세요.

모델 제공은 학습된 머신 러닝(ML) 모델을 프로덕션 환경에서 입력 데이터를 수신하고 예측을 반환할 수 있도록 만드는 프로세스입니다. 모델이 학습되고 검증되면 서빙은 모델을 정적 파일에서 실제 애플리케이션을 구동할 수 있는 능동적인 운영 도구로 전환하는 중요한 단계입니다. 여기에는 서버에 모델을 배포하고 다른 소프트웨어 시스템이 실시간 추론을 위해 모델과 통신할 수 있는 인터페이스(일반적으로 API)를 만드는 작업이 포함됩니다.

밀접한 관련이 있지만 모델 제공은 모델 배포라는 광범위한 프로세스 내의 특정 구성 요소입니다. 배포에는 인프라 설정 및 모니터링을 포함하여 모델을 프로덕션 환경에 통합하는 전체 워크플로우가 포함됩니다. 모델 제공은 구체적으로 모델을 실행하고 추론 요청을 효율적으로 처리하는 인프라의 일부를 의미합니다.

모델 서빙의 주요 구성 요소

강력한 모델 제공 시스템은 빠르고 신뢰할 수 있는 예측을 제공하기 위해 함께 작동하는 여러 통합 구성 요소로 구성됩니다.

  • 모델 형식: 모델을 제공하기 전에 표준화된 포맷으로 패키징해야 합니다. ONNX와 같은 포맷은 다양한 프레임워크에서 상호 운용성을 보장합니다. 성능을 극대화하기 위해 NVIDIA GPU용 TensorRT와 같은 도구를 사용하여 모델을 최적화할 수 있습니다.
  • 서빙 프레임워크: 모델을 로드하고, GPU와 같은 하드웨어 리소스를 관리하며, 추론 요청을 처리하는 전문 소프트웨어입니다. 인기 있는 프레임워크로는 TensorFlow Serving, PyTorch Serve, 그리고 Triton 통합 가이드를 통해 Ultralytics 모델과 함께 사용할 수 있는 고성능 NVIDIA Triton 추론 서버가 있습니다.
  • API 엔드포인트: 클라이언트 애플리케이션이 데이터(예: 이미지 또는 텍스트)를 전송하고 모델의 예측을 수신할 수 있는 통신 게이트웨이입니다. 이 목적으로 사용되는 일반적인 API 프로토콜은 REST 및 gRPC입니다.
  • 인프라: 모델이 실행되는 물리적 또는 가상 하드웨어입니다. 여기에는 온프레미스 서버부터 Amazon SageMakerGoogle Cloud AI Platform과 같은 클라우드 컴퓨팅 플랫폼까지 다양합니다. 짧은 지연 시간이 필요한 애플리케이션의 경우, 모델은 종종 엣지 AI 디바이스에서 제공됩니다. 이동 가능하고 확장 가능한 서비스 환경을 구축하려면 Docker와 같은 도구를 사용한 컨테이너화가 필수적입니다.
  • 모니터링 및 로깅: 모델 성능과 시스템 상태를 지속적으로 추적합니다. 여기에는 추론 지연 시간 및 처리량과 같은 메트릭을 모니터링하고 시간이 지남에 따라 모델 정확도를 저하시킬 수 있는 데이터 드리프트와 같은 문제를 감시하는 것이 포함됩니다. 자세한 내용은 모델 모니터링 가이드에서 확인할 수 있습니다.

실제 애플리케이션

모델 서빙은 수많은 AI 기반 기능의 엔진입니다.

  1. AI 기반 재고 관리: 한 소매업체는 실시간 재고 관리를 위해 Ultralytics YOLO11 모델을 사용합니다. 이 모델은 ONNX 형식으로 패키징되어 매장 내부의 소형 엣지 컴퓨터에서 제공됩니다. 카메라가 비디오 피드를 서빙 엔드포인트로 전송하면, 이 엔드포인트는 물체 감지를 수행하여 선반에 있는 품목을 계산하고 재고가 부족하면 알림을 보냅니다.
  2. 클라우드에서의 의료 이미지 분석: 한 병원 시스템은 의료 이미지 분석을 위해 정교한 컴퓨터 비전 모델을 배포합니다. 모델 크기와 계산 요구사항이 크기 때문에 여러 개의 GPU를 갖춘 강력한 클라우드 서버에서 제공됩니다. 영상의학과 전문의는 보안 포털을 통해 고해상도 스캔을 업로드하고, 이 포털은 서비스 API를 호출합니다. 이 모델은 잠재적인 이상 징후를 식별하는 데 도움이 되는 예측 결과를 반환하여 진단 속도와 정확성을 개선합니다.

MLOps의 역할

모델 서빙은 머신 러닝 운영(MLOps)의 초석입니다. 올바른 MLOps 전략은 데이터 전처리모델 훈련에서 서비스 및 모니터링에이르는 전체 수명 주기가 자동화되고 안정적이며 확장 가능하도록 보장합니다. Ultralytics HUB와 같은 플랫폼은 이 전체 워크플로우를 간소화하도록 설계되어 컴퓨터 비전 모델을 효과적으로 학습, 버전 관리 및 제공할 수 있는 통합 솔루션을 제공합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨