낮은 추론 지연 시간으로 AI 성능을 최적화합니다. 실시간 응답을 향상시키는 주요 요인, 실제 응용 프로그램 및 기술을 알아보세요.
추론 지연 시간은 머신 러닝 모델이 입력을 수신하고 머신 러닝(ML) 모델이 입력을 받아 해당 출력을 생성하기까지 경과하는 시간입니다. 일반적으로 밀리초(ms) 단위로 측정되는 이 메트릭은 다음과 같은 결정적인 요소입니다. 응답성을 결정하는 인공 지능(AI) 시스템의 응답성을 결정짓는 요소입니다. 개발자와 엔지니어의 경우 컴퓨터 비전(CV) 프로젝트를 진행하는 개발자와 엔지니어에게는 지연 시간을 최소화하는 것은 정확도를 극대화하는 것만큼이나 중요합니다, 특히 사람이나 물리적 기계와 상호 작용하는 애플리케이션을 배포할 때는 더욱 그렇습니다. 지연 시간이 길면 느린 성능을 초래하는 반면, 지연 시간이 짧으면 원활한 사용자 경험을 제공하고 즉각적인 의사 결정을 내릴 수 있습니다. 최신 지능형 시스템의 기본 개념인 즉각적인 의사 결정을 가능하게 합니다.
모델 배포 영역에서는 시스템이 데이터를 처리하는 속도가 시스템이 데이터를 처리하는 속도가 특정 작업에 대한 타당성을 결정합니다. 짧은 추론 지연 시간은 예측이 반드시 필요한 실시간 추론의 초석입니다. 엄격한 시간 예산 내에서 예측이 실행 가능해야 합니다. 예를 들어, 수백 밀리초의 지연은 쇼핑 웹사이트의 추천 시스템에서는 수백 밀리초의 지연은 허용될 수 있지만, 안전이 중요한 시스템에서는 치명적일 수 있습니다. 프로젝트의 구체적인 프로젝트의 구체적인 지연 시간 요구 사항을 이해하면 팀에서는 안정성을 보장하기 위해 적절한 모델 아키텍처와 하드웨어 구성을 선택할 수 있습니다.
여러 가지 변수 구성 요소가 단일 추론 패스에 필요한 총 시간에 영향을 미칩니다:
추론 지연 시간의 실질적인 영향은 속도와 타협할 수 없는 구체적인 사용 사례를 통해 가장 잘 이해할 수 있습니다.
'지연 시간'과 '처리량'은 반비례 관계인 경우가 많으므로 이를 구분하는 것이 중요합니다. 최적화 목표.
이 지연 시간과 처리량 간의 균형 의 균형을 맞추려면 개발자는 배포 환경의 특정 요구 사항에 따라 추론 파이프라인을 조정해야 합니다.
기본 제공 벤치마크 모드를 사용하여 Ultralytics 모델의 성능을 평가할 수 있습니다. 이 도구는 다음과 같은 형식에 걸쳐 추론 속도에 대한 자세한 다음과 같은 다양한 형식의 추론 속도에 대한 자세한 메트릭을 제공합니다. ONNX 또는 TorchScript.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")
지연 시간을 최대한 낮추기 위해 개발자는 하드웨어에 적합한 추론 엔진을 사용합니다. 예를 들어 예를 들어, NVIDIA 젯슨 디바이스에 모델을 배포할 때 TensorRT 최적화를 통해 모델을 배포하면 원시 데이터를 원시 실행 PyTorch 코드를 실행하는 것에 비해 상당한 속도를 높일 수 있습니다. 마찬가지로 Intel OpenVINO 를 활용하면 표준 CPU 아키텍처의 성능을 가속화할 수 있습니다. 이러한 도구는 계산 그래프를 최적화하고, 레이어를 병합하고, 메모리를 관리합니다. 표준 트레이닝 프레임워크보다 효율적으로 관리합니다.

