용어집

추론 엔진

추론 엔진이 실시간 예측을 제공하고, 모델을 최적화하고, 크로스 플랫폼 배포를 지원하여 어떻게 AI를 강화하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인공 지능(AI)머신 러닝(ML) 영역에서 추론 엔진은 학습된 모델을 실행하여 보이지 않는 새로운 데이터를 예측하는 중요한 소프트웨어 또는 하드웨어 구성 요소입니다. 모델이 학습 단계에서 패턴을 학습한 후 추론 엔진은 이 학습된 모델을 가져와 실제 입력에 적용합니다. 추론이라고 하는 이 프로세스를 통해 AI 시스템은 실제 애플리케이션에서 객체 감지, 이미지 분류 또는 자연어 처리(NLP) 와 같은 작업을 수행할 수 있습니다. 추론은 기본적으로 배포된 AI 모델의 운영 핵심으로, 학습된 지식을 실행 가능한 출력으로 효율적으로 변환합니다.

추론 엔진의 작동 방식

추론 엔진은 다음과 같은 딥 러닝(DL) 프레임워크를 사용하여 개발된 사전 학습된 모델을 활용합니다. PyTorch 또는 TensorFlow와 같은 딥 러닝(DL) 프레임워크를 사용해 개발된 모델을 활용합니다. 새로운 데이터(예: 이미지, 오디오 클립 또는 텍스트 문장)가 입력으로 제공되면 추론 엔진은 모델의 계산 구조(주로 신경망)를 통해 이를 처리합니다. 이를 통해 이미지에서 경계 상자가 있는 객체를 식별하거나 음성을 텍스트로 변환하거나 감정을 분류하는 등의 출력을 생성합니다. Ultralytics YOLO 모델은 강력한 클라우드 서버부터 리소스가 제한된 엣지 디바이스에 이르기까지 다양한 플랫폼에서 실시간 객체 감지세분화를 달성하기 위해 효율적인 추론 엔진에 의존합니다. 추론 엔진의 성능은 애플리케이션의 속도와 응답성에 직접적인 영향을 미치며, 추론 지연 시간 및 처리량으로 측정되는 경우가 많습니다.

최적화 및 주요 기능

최신 추론 엔진의 핵심 역할은 최적화입니다. 학습된 대규모 딥러닝 모델을 직접 실행하면 계산 비용이 많이 들고 속도가 느려질 수 있습니다. 추론 엔진은 다양한 기술을 사용해 모델을 더 빠르고 효율적으로 만들어 다양한 하드웨어에 배포할 수 있도록 합니다. 일반적인 모델 최적화 전략에는 다음이 포함됩니다:

  • 모델 정량화: 모델 가중치의 정밀도를 낮추어(예: 32비트 부동 소수점에서 8비트 정수로) 정확도에 미치는 영향을 최소화하면서 모델 크기를 줄이고 계산 속도를 높일 수 있습니다.
  • 모델 가지치기: 신경망 내에서 중복되거나 중요하지 않은 연결(가중치)을 제거하여 더 작고 빠른 모델을 만드는 작업입니다.
  • 그래프 최적화: 특정 하드웨어에서 실행 효율성을 개선하기 위해 모델의 계산 그래프에서 레이어를 융합하거나 연산을 재배치합니다.
  • 하드웨어 가속: GPU, TPU, 전용 AI 가속기 등 특수 프로세서 활용: Google Edge TPU 또는 NVIDIA Jetson과 같은 기기에 탑재된 전용 AI 가속기를 활용합니다.

또한 많은 추론 엔진은 하나의 프레임워크에서 학습된 모델을 허용하는 ONNX (Open Neural Network Exchange)와 같은 표준화된 모델 형식을 지원합니다(예 PyTorch)에서 학습된 모델을 다른 엔진이나 플랫폼을 사용하여 실행할 수 있습니다. 인기 있는 추론 엔진은 다음과 같습니다. NVIDIA TensorRT, Intel OpenVINO, TensorFlow Lite 등이 있습니다. Ultralytics 모델은 모델 배포 옵션 가이드에 자세히 설명된 대로 이러한 엔진과 호환되는 다양한 형식으로 내보내기를 지원합니다.

추론 엔진과 트레이닝 프레임워크 비교

추론 엔진과 트레이닝 프레임워크를 구분하는 것이 중요합니다.

  • 교육 프레임워크 (예, PyTorch, TensorFlow, Keras 등): 머신 러닝 모델을 구축, 훈련 및 검증하는 데 사용되는 포괄적인 라이브러리입니다. 네트워크 아키텍처 정의, 역전파 구현, 데이터 세트 관리, 손실 함수 계산을 위한 도구를 제공합니다. 유연성과 학습 프로세스에 중점을 두고 있습니다.
  • 추론 엔진 (예, TensorRT, OpenVINO, ONNX 런타임): 예측 작업(모델 배포)을 위해 사전 학습된 모델을 효율적으로 실행하도록 설계된 전문 도구입니다. 속도(짧은 지연 시간), 낮은 메모리 사용량, 대상 하드웨어와의 호환성을 최적화하는 데 중점을 둡니다. 프레임워크를 사용하여 학습된 모델을 가져와서 최적화된 형식으로 변환하는 경우가 많습니다.

실제 애플리케이션

추론 엔진은 실제 시나리오에서 AI를 배포하는 데 매우 중요합니다:

  1. 자율 주행 차량: 자율 주행 차량(예: 웨이모에서 개발한 차량)은 임베디드 하드웨어(예: NVIDIA Jetson 플랫폼)에서 실행되는 효율적인 추론 엔진에 크게 의존하여 센서 데이터(카메라, LiDAR)를 실시간으로 처리합니다. 엔진은 안전에 중요한 물체 감지 (자동차, 보행자, 표지판 감지) 및 시맨틱 분할 (도로 레이아웃 이해)과 같은 작업을 위해 YOLO 같은 복잡한 컴퓨터 비전 모델을 최소한의 지연으로 최적화합니다. 자동차 솔루션의 AI에 대해 자세히 알아보세요.
  2. 의료 이미지 분석: 추론 엔진은 종양(뇌종양 데이터세트 참조) 또는 이상 징후를 감지하는 등의 작업을 위해 의료 스캔(X-레이, CT, MRI)의 분석을 가속화합니다. 추론 엔진을 통해 배포된 최적화된 모델은 병원 서버 또는 특수 의료 기기에서 빠르게 실행되어 더 빠른 진단이나 2차 의견을 제공함으로써 영상의학 전문의(영상의학에서의 AI에 대해 읽어보기)를 지원할 수 있습니다. 의료 솔루션에서의 AI를 확인해 보세요.

본질적으로 추론 엔진은 학습된 AI 모델과 실제 적용 사이의 간극을 메워주며, 정교한 AI 기능을 다양한 디바이스와 플랫폼에서 효율적이고 효과적으로 제공할 수 있도록 하며, 여기에는 Ultralytics HUB와 같은 플랫폼을 통한 모델 관리가 포함됩니다.

모두 보기