YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

추론 엔진

추론 엔진이 실시간 예측을 제공하고, 모델을 최적화하며, 교차 플랫폼 배포를 가능하게 함으로써 AI에 어떻게 전력을 공급하는지 알아보세요.

추론 엔진은 훈련된 머신러닝 모델을 실행하여 새롭고 보지 못한 데이터로부터 예측을 생성하는 특수 소프트웨어 구성 요소입니다. 모델이 PyTorch 또는 TensorFlow와 같은 프레임워크를 사용하여 훈련된 후에는 추론 엔진이 제어하여 프로덕션 환경에서 효율적으로 실행합니다. 주요 목표는 속도와 리소스 사용량을 위해 모델을 최적화하여 강력한 클라우드 서버에서 리소스가 제한된 에지 장치에 이르기까지 다양한 하드웨어 플랫폼에서 실시간 추론을 달성할 수 있도록 하는 것입니다.

추론 엔진의 역할

추론 엔진의 핵심 기능은 훈련된 모델과 실제 애플리케이션 간의 간극을 해소하는 것입니다. 추론 지연 시간을 최소화하고 정확도를 크게 저하시키지 않으면서 처리량을 최대화하기 위해 여러 중요한 최적화를 수행합니다.

주요 최적화 기술:

  • Graph Optimization: 엔진은 모델의 계산 그래프를 분석하고 계산 오버헤드를 줄이기 위해 여러 순차적 연산을 단일 연산으로 결합하는 '레이어 융합'과 같은 최적화를 적용합니다.
  • Hardware-Specific Optimization: CPU, GPU 또는 Google의 TPU와 같은 특수 AI 가속기와 같은 특정 하드웨어에서 실행되도록 모델을 컴파일합니다. 여기에는 하드웨어 아키텍처에 맞게 조정된 고도로 최적화된 컴퓨팅 커널을 사용하는 것이 포함됩니다.
  • 정밀도 감소: 모델 양자화와 같은 기술은 모델의 가중치를 32비트 부동 소수점 숫자에서 더 효율적인 16비트 또는 8비트 정수로 변환하는 데 사용됩니다. 이는 메모리 사용량을 획기적으로 줄이고 계산 속도를 높이며, 이는 특히 에지 컴퓨팅에 중요합니다.
  • 모델 가지치기: 추론 엔진은 모델 가지치기를 통해 불필요한 가중치가 제거된 모델 실행을 용이하게 하여 모델의 크기와 계산 요구 사항을 더욱 줄일 수 있습니다.

널리 사용되는 추론 엔진

많은 조직에서 딥러닝 모델을 가속화하기 위해 고성능 추론 엔진을 개발했습니다. 인기 있는 선택 사항은 다음과 같습니다.

  • NVIDIA TensorRT: 최첨단 추론 속도를 제공하는 NVIDIA GPU용 고성능 최적화 프로그램 및 런타임입니다. Ultralytics는 YOLO 모델 배포를 위해 원활한 TensorRT와의 통합을 제공합니다.
  • Intel의 OpenVINO: CPU 및 통합 GPU를 포함한 Intel 하드웨어에서 모델을 최적화하고 배포하기 위한 오픈 소스 툴킷입니다. Ultralytics 모델은 OpenVINO로 쉽게 내보낼 수 있습니다.
  • ONNX 런타임(ONNX Runtime): Microsoft에서 개발한 크로스 플랫폼 엔진으로, 광범위한 하드웨어에서 ONNX(Open Neural Network Exchange) 형식으로 모델을 실행할 수 있습니다.
  • TensorFlow Lite (TFLite): Android 및 iOS를 실행하는 장치와 같은 모바일 및 임베디드 장치에 모델을 배포하도록 특별히 설계된 경량 솔루션입니다.
  • Apache TVM: 다양한 하드웨어 백엔드에 맞게 모델을 최적화할 수 있는 오픈 소스 머신 러닝 컴파일러 프레임워크입니다.

실제 애플리케이션

추론 엔진은 수많은 AI 애플리케이션의 운영상 핵심입니다.

  1. 자동차 솔루션용 AI에서 추론 엔진은 차량의 온보드 컴퓨터에서 실행되어 카메라와 센서의 데이터를 처리합니다. Ultralytics YOLO11과 같은 객체 탐지 모델을 실행하여 보행자, 교통 표지판 및 기타 차량을 밀리초 단위로 식별하여 중요한 안전 기능을 활성화합니다.
  2. 스마트 제조의 경우, 공장 현장의 추론 엔진은 품질 관리를 위한 컴퓨터 비전 시스템에 전원을 공급합니다. 생산 라인의 이미지를 실시간으로 분석하여 결함을 감지하고 제품이 고속 및 신뢰성으로 품질 기준을 충족하는지 확인합니다.

추론 엔진 vs. 관련 개념

MLOps에서 추론 엔진을 다른 관련 용어와 구별하는 것이 도움이 됩니다.

  • ML 프레임워크 대 추론 엔진: PyTorch와 같은 머신 러닝 프레임워크는 모델 학습 및 배포를 위한 포괄적인 라이브러리입니다. 여기에는 신경망 구축, 데이터 세트 관리 및 학습 루프 실행을 위한 도구가 포함되어 있습니다. 대조적으로 추론 엔진은 배포 단계에만 집중된 고도로 전문화된 도구입니다. 프레임워크에는 기본적인 추론 기능이 있지만 전용 추론 엔진은 공격적인 하드웨어별 최적화를 통해 뛰어난 성능을 제공합니다.

  • 모델 서빙 vs. 추론 엔진: 모델 서빙은 API 엔드포인트, 로드 밸런서, 모니터링 도구와 같은 구성 요소를 포함하여 네트워크를 통해 모델을 사용할 수 있도록 하는 더 광범위한 인프라를 의미합니다. 추론 엔진은 예측 요청을 실행하는 모델 서빙 시스템 내의 핵심 구성 요소입니다. 다양한 모델 배포 옵션을 통해 추론 엔진이 더 큰 그림에 어떻게 들어맞는지 확인할 수 있습니다. Ultralytics HUB와 같은 플랫폼은 학습에서 최적화된 배포에 이르기까지 전체 프로세스를 간소화합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.