Yolo 비전 선전
선전
지금 참여하기
용어집

추론 지연 시간

낮은 추론 지연 시간으로 AI 성능을 최적화합니다. 실시간 응답을 향상시키는 주요 요인, 실제 응용 프로그램 및 기술을 알아보세요.

추론 지연 시간은 머신 러닝 모델이 입력을 수신하고 머신 러닝(ML) 모델이 입력을 받아 해당 출력을 생성하기까지 경과하는 시간입니다. 일반적으로 밀리초(ms) 단위로 측정되는 이 메트릭은 다음과 같은 결정적인 요소입니다. 응답성을 결정하는 인공 지능(AI) 시스템의 응답성을 결정짓는 요소입니다. 개발자와 엔지니어의 경우 컴퓨터 비전(CV) 프로젝트를 진행하는 개발자와 엔지니어에게는 지연 시간을 최소화하는 것은 정확도를 극대화하는 것만큼이나 중요합니다, 특히 사람이나 물리적 기계와 상호 작용하는 애플리케이션을 배포할 때는 더욱 그렇습니다. 지연 시간이 길면 느린 성능을 초래하는 반면, 지연 시간이 짧으면 원활한 사용자 경험을 제공하고 즉각적인 의사 결정을 내릴 수 있습니다. 최신 지능형 시스템의 기본 개념인 즉각적인 의사 결정을 가능하게 합니다.

짧은 지연 시간의 중요성

모델 배포 영역에서는 시스템이 데이터를 처리하는 속도가 시스템이 데이터를 처리하는 속도가 특정 작업에 대한 타당성을 결정합니다. 짧은 추론 지연 시간은 예측이 반드시 필요한 실시간 추론의 초석입니다. 엄격한 시간 예산 내에서 예측이 실행 가능해야 합니다. 예를 들어, 수백 밀리초의 지연은 쇼핑 웹사이트의 추천 시스템에서는 수백 밀리초의 지연은 허용될 수 있지만, 안전이 중요한 시스템에서는 치명적일 수 있습니다. 프로젝트의 구체적인 프로젝트의 구체적인 지연 시간 요구 사항을 이해하면 팀에서는 안정성을 보장하기 위해 적절한 모델 아키텍처와 하드웨어 구성을 선택할 수 있습니다.

지연 시간에 영향을 미치는 주요 요인

여러 가지 변수 구성 요소가 단일 추론 패스에 필요한 총 시간에 영향을 미칩니다:

  • 모델 아키텍처: 신경망의 구조 설계는 신경망(NN)의 구조적 설계는 그 속도에 큰 영향을 미칩니다. 대형 트랜스포머와 같이 레이어가 많은 심층 모델은 트랜스포머와 같이 레이어가 많은 심층 모델은 본질적으로 경량 모델보다 가벼운 컨볼루션 신경망(CNN)보다 더 많은 연산이 필요합니다. 다음과 같은 아키텍처 YOLO11 과 같은 아키텍처는 효율적인 실행을 위해 효율적인 실행을 위해 최적화되어 있습니다.
  • 하드웨어 가속: 처리 장치의 선택은 매우 중요합니다. 표준 CPU 는 일반적인 작업을 잘 처리하지만, 특수 하드웨어인 GPU (그래픽 처리 장치) 또는 TPU (Tensor 처리 장치)와 같은 특수 하드웨어는 는 AI 모델에 필요한 행렬 연산을 병렬화하도록 설계되어 계산 시간을 크게 단축합니다. NVIDIA CUDA 기술은 이러한 가속화를 촉진하는 소프트웨어의 일반적인 예입니다. 이러한 가속화를 촉진하는 소프트웨어의 일반적인 예입니다.
  • 입력 해상도: 더 큰 이미지나 동영상 프레임을 처리하려면 더 많은 컴퓨팅 리소스가 필요합니다. 입력 크기를 줄이면(예: 640p에서 320p로) 지연 시간을 줄일 수 있지만, 잠재적으로 작은 물체를 감지하는 대가를 치를 수 있습니다. 작은 물체를 감지하는 대가를 치를 수 있습니다. EfficientNet 연구.
  • 모델 최적화: 다음과 같은 기술 모델 양자화(가중치를 32비트 부동 소수점에서 8비트 정수로 변환하고 모델 가지치기와 같은 기술은 중복 계산을 제거합니다. 도구 는 대상 하드웨어의 지연 시간을 줄이도록 특별히 제작되었습니다.

실제 애플리케이션

추론 지연 시간의 실질적인 영향은 속도와 타협할 수 없는 구체적인 사용 사례를 통해 가장 잘 이해할 수 있습니다.

  1. 자율 주행: In 자동차 애플리케이션의 AI에서 차량은 주변 환경을 지속적으로 인식해야 합니다. 보행자를 식별하는 보행자를 식별하는 물체 감지 시스템 물체 감지 시스템은 카메라 피드를 처리하고 밀리초 내에 제동 시스템을 작동시켜야 합니다. 여기서 지연 시간이 과도하게 길어지면 제동 거리가 증가하여 안전에 직접적인 영향을 미칩니다. 자율주행차 지연 시간에 대한 연구 자율주행차 지연 시간에 대한 연구에 따르면 사소한 지연도 사소한 지연도 위험한 상황으로 이어질 수 있다는 점을 강조합니다.
  2. 산업용 로봇 공학: 대상 제조 분야의 AI, 고속 픽 앤 플레이스 로봇은 빠르게 움직이는 컨베이어 벨트에서 물품을 찾기 위해 비전 시스템에 의존합니다. 추론 지연 시간이 물체가 로봇의 도달 범위 내에 있는 시간을 초과하면 시스템이 실패합니다. 구현 엣지 AI 솔루션을 구현하면 데이터가 디바이스에서 로컬로 처리되어 데이터를 로컬에서 처리하여 클라우드 컴퓨팅과 관련된 네트워크 지연을 제거합니다. 클라우드 컴퓨팅.

추론 지연 시간 vs. 처리량

'지연 시간'과 '처리량'은 반비례 관계인 경우가 많으므로 이를 구분하는 것이 중요합니다. 최적화 목표.

  • 추론 지연 시간은 단일 예측에 걸리는 시간에 중점을 둡니다. 이는 단일 사용자 대화형 애플리케이션과 같은 단일 사용자 대화형 애플리케이션의 주요 지표입니다. 가상 비서 또는 자율 로봇과 같은 단일 사용자 대화형 애플리케이션의 주요 지표입니다.
  • 처리량은 시스템이 주어진 기간 동안 처리할 수 있는 예측의 수(예: 초당 이미지 수)를 측정합니다. 초당 이미지). 높은 처리량은 일반적으로 여러 입력을 처리하는 여러 입력을 동시에 처리하는 배치 크기 동시에 처리합니다. 그러나 일괄 처리는 대기열에서 대기 중인 각 개별 항목의 지연 시간을 증가시키는 경우가 많습니다.

지연 시간과 처리량 간의 균형 의 균형을 맞추려면 개발자는 배포 환경의 특정 요구 사항에 따라 추론 파이프라인을 조정해야 합니다.

Ultralytics 지연 시간 측정

기본 제공 벤치마크 모드를 사용하여 Ultralytics 모델의 성능을 평가할 수 있습니다. 이 도구는 다음과 같은 형식에 걸쳐 추론 속도에 대한 자세한 다음과 같은 다양한 형식의 추론 속도에 대한 자세한 메트릭을 제공합니다. ONNX 또는 TorchScript.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Benchmark the model on CPU to measure latency
# Results will display inference time per image in milliseconds
model.benchmark(data="coco8.yaml", imgsz=640, device="cpu")

프로덕션 최적화

지연 시간을 최대한 낮추기 위해 개발자는 하드웨어에 적합한 추론 엔진을 사용합니다. 예를 들어 예를 들어, NVIDIA 젯슨 디바이스에 모델을 배포할 때 TensorRT 최적화를 통해 모델을 배포하면 원시 데이터를 원시 실행 PyTorch 코드를 실행하는 것에 비해 상당한 속도를 높일 수 있습니다. 마찬가지로 Intel OpenVINO 를 활용하면 표준 CPU 아키텍처의 성능을 가속화할 수 있습니다. 이러한 도구는 계산 그래프를 최적화하고, 레이어를 병합하고, 메모리를 관리합니다. 표준 트레이닝 프레임워크보다 효율적으로 관리합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기