용어집

추론 엔진

추론 엔진이 실시간 예측을 제공하고, 모델을 최적화하고, 크로스 플랫폼 배포를 지원하여 어떻게 AI를 강화하는지 알아보세요.

추론 엔진은 학습된 머신 러닝 모델을 실행하여 보이지 않는 새로운 데이터에서 예측을 생성하는 특수 소프트웨어 구성 요소입니다. 파이토치나 텐서플로우와 같은 프레임워크를 사용하여 모델을 학습시킨 후에는 추론 엔진이 이를 이어받아 프로덕션 환경에서 효율적으로 실행합니다. 추론 엔진의 주요 목표는 속도와 리소스 사용에 맞게 모델을 최적화하여 강력한 클라우드 서버부터 리소스가 제한된 엣지 디바이스에 이르기까지 다양한 하드웨어 플랫폼에서 실시간 추론을 달성하는 것입니다.

추론 엔진의 역할

추론 엔진의 핵심 기능은 학습된 모델과 실제 애플리케이션 간의 격차를 해소하는 것입니다. 추론 엔진은 몇 가지 중요한 최적화를 수행하여 정확도를 크게 저하시키지 않으면서 추론 대기 시간을 최소화하고 처리량을 최대화합니다.

주요 최적화 기술은 다음과 같습니다:

  • 그래프 최적화: 엔진은 모델의 계산 그래프를 분석하고 여러 개의 순차적 연산을 단일 연산으로 결합하여 계산 오버헤드를 줄이는 '레이어 퓨전'과 같은 최적화를 적용합니다.
  • 하드웨어별 최적화: CPU, GPU 또는 Google의 TPU와 같은 특수 AI 가속기와 같은 특정 하드웨어에서 실행되도록 모델을 컴파일합니다. 여기에는 하드웨어의 아키텍처에 맞게 고도로 최적화된 컴퓨팅 커널을 사용하는 것이 포함됩니다.
  • 정밀도 감소: 모델 양자화와 같은 기술은 모델의 가중치를 32비트 부동 소수점 숫자에서 보다 효율적인 16비트 또는 8비트 정수로 변환하는 데 사용됩니다. 이렇게 하면 메모리 사용량이 크게 줄어들고 계산 속도가 빨라지며, 이는 엣지 컴퓨팅에 특히 중요합니다.
  • 모델 가지치기: 추론 엔진은 모델 가지치기를 통해 불필요한 가중치를 제거한 모델을 쉽게 실행할 수 있어 모델의 크기와 계산 수요를 더욱 줄일 수 있습니다.

인기 있는 추론 엔진

많은 조직에서 딥 러닝 모델을 가속화하기 위해 고성능 추론 엔진을 개발했습니다. 인기 있는 추론 엔진은 다음과 같습니다:

  • NVIDIA TensorRT: 최첨단 추론 속도를 제공하는 고성능 최적화 도구 및 런타임으로, NVIDIA GPU용입니다. Ultralytics는 YOLO 모델 배포를 위해 TensorRT와의 원활한 통합을 제공합니다.
  • 인텔의 OpenVINO: CPU 및 통합 GPU를 포함한 인텔 하드웨어에서 모델을 최적화하고 배포하기 위한 오픈 소스 툴킷입니다. 울트라리틱스 모델을 OpenVINO로 쉽게 내보낼 수 있습니다.
  • ONNX 런타임: Microsoft에서 개발한 크로스 플랫폼 엔진으로, 다양한 하드웨어에서 ONNX(개방형 신경망 교환) 형식의 모델을 실행할 수 있습니다.
  • 텐서플로우 라이트(TFLite): Android 및 iOS를 실행하는 모바일 및 임베디드 디바이스에 모델을 배포하기 위해 특별히 설계된 경량 솔루션입니다.
  • Apache TVM: 다양한 하드웨어 백엔드에 맞게 모델을 최적화할 수 있는 오픈 소스 머신 러닝 컴파일러 프레임워크입니다.

실제 애플리케이션

추론 엔진은 수많은 AI 애플리케이션의 운영 중추입니다.

  1. 차량용 AI 솔루션에서는 추론 엔진이 차량의 온보드 컴퓨터에서 실행되어 카메라와 센서의 데이터를 처리합니다. 이 추론 엔진은 Ultralytics YOLO11과 같은 객체 감지 모델을 실행하여 보행자, 교통 표지판 및 기타 차량을 밀리초 단위로 식별하여 중요한 안전 기능을 구현합니다.
  2. 스마트 제조의 경우, 공장 현장의 추론 엔진이 품질 관리를 위한 컴퓨터 비전 시스템을 구동합니다. 이 시스템은 생산 라인의 이미지를 실시간으로 분석하여 결함을 감지함으로써 제품이 빠른 속도와 신뢰성으로 품질 표준을 충족하도록 보장합니다.

추론 엔진과 관련 개념 비교

추론 엔진을 MLOps의 다른 관련 용어와 구별하는 것이 도움이 됩니다.

  • 머신 러닝 프레임워크와 추론 엔진 비교: PyTorch와 같은 머신 러닝 프레임워크는 모델 훈련과 배포를 위한 포괄적인 라이브러리입니다. 여기에는 신경망 구축, 데이터 세트 관리, 훈련 루프 실행을 위한 도구가 포함되어 있습니다. 반면 추론 엔진은 배포 단계에만 초점을 맞춘 고도로 전문화된 도구입니다. 프레임워크에는 기본적인 추론 기능이 있지만, 전용 추론 엔진은 적극적인 하드웨어별 최적화를 통해 뛰어난 성능을 제공합니다.

  • 모델 서비스 대 추론 엔진: 모델 서빙은 네트워크를 통해 모델을 제공하기 위한 광범위한 인프라를 의미하며, 여기에는 API 엔드포인트, 로드 밸런서 및 모니터링 도구와 같은 구성 요소가 포함됩니다. 추론 엔진은 예측 요청을 실행하는 모델 서비스 시스템 내의 핵심 구성 요소입니다. 다양한 모델 배포 옵션을 탐색하여 추론 엔진이 더 큰 그림에 어떻게 들어맞는지 확인할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 교육부터 최적화된 배포에 이르기까지 이 전체 프로세스를 간소화합니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨