추론 엔진이 실시간 예측을 제공하고, 모델을 최적화하고, 크로스 플랫폼 배포를 지원하여 어떻게 AI를 강화하는지 알아보세요.
인공 지능(AI) 및 머신 러닝(ML) 영역에서 추론 엔진은 학습된 모델을 실행하여 보이지 않는 새로운 데이터를 예측하는 중요한 소프트웨어 또는 하드웨어 구성 요소입니다. 모델이 학습 단계에서 패턴을 학습한 후 추론 엔진은 이 학습된 모델을 가져와 실제 입력에 적용합니다. 추론이라고 하는 이 프로세스를 통해 AI 시스템은 실제 애플리케이션에서 객체 감지, 이미지 분류 또는 자연어 처리(NLP) 와 같은 작업을 수행할 수 있습니다. 추론은 기본적으로 배포된 AI 모델의 운영 핵심으로, 학습된 지식을 실행 가능한 출력으로 효율적으로 변환합니다.
추론 엔진은 다음과 같은 딥 러닝(DL) 프레임워크를 사용하여 개발된 사전 학습된 모델을 활용합니다. PyTorch 또는 TensorFlow와 같은 딥 러닝(DL) 프레임워크를 사용해 개발된 모델을 활용합니다. 새로운 데이터(예: 이미지, 오디오 클립 또는 텍스트 문장)가 입력으로 제공되면 추론 엔진은 모델의 계산 구조(주로 신경망)를 통해 이를 처리합니다. 이를 통해 이미지에서 경계 상자가 있는 객체를 식별하거나 음성을 텍스트로 변환하거나 감정을 분류하는 등의 출력을 생성합니다. Ultralytics YOLO 모델은 강력한 클라우드 서버부터 리소스가 제한된 엣지 디바이스에 이르기까지 다양한 플랫폼에서 실시간 객체 감지 및 세분화를 달성하기 위해 효율적인 추론 엔진에 의존합니다. 추론 엔진의 성능은 애플리케이션의 속도와 응답성에 직접적인 영향을 미치며, 추론 지연 시간 및 처리량으로 측정되는 경우가 많습니다.
최신 추론 엔진의 핵심 역할은 최적화입니다. 학습된 대규모 딥러닝 모델을 직접 실행하면 계산 비용이 많이 들고 속도가 느려질 수 있습니다. 추론 엔진은 다양한 기술을 사용해 모델을 더 빠르고 효율적으로 만들어 다양한 하드웨어에 배포할 수 있도록 합니다. 일반적인 모델 최적화 전략에는 다음이 포함됩니다:
또한 많은 추론 엔진은 하나의 프레임워크에서 학습된 모델을 허용하는 ONNX (Open Neural Network Exchange)와 같은 표준화된 모델 형식을 지원합니다(예 PyTorch)에서 학습된 모델을 다른 엔진이나 플랫폼을 사용하여 실행할 수 있습니다. 인기 있는 추론 엔진은 다음과 같습니다. NVIDIA TensorRT, Intel OpenVINO, TensorFlow Lite 등이 있습니다. Ultralytics 모델은 모델 배포 옵션 가이드에 자세히 설명된 대로 이러한 엔진과 호환되는 다양한 형식으로 내보내기를 지원합니다.
추론 엔진과 트레이닝 프레임워크를 구분하는 것이 중요합니다.
추론 엔진은 실제 시나리오에서 AI를 배포하는 데 매우 중요합니다:
본질적으로 추론 엔진은 학습된 AI 모델과 실제 적용 사이의 간극을 메워주며, 정교한 AI 기능을 다양한 디바이스와 플랫폼에서 효율적이고 효과적으로 제공할 수 있도록 하며, 여기에는 Ultralytics HUB와 같은 플랫폼을 통한 모델 관리가 포함됩니다.