낮은 추론 지연 시간으로 AI 성능을 최적화합니다. 실시간 응답을 향상시키는 주요 요인, 실제 응용 프로그램 및 기술을 알아보세요.
추론 지연 시간은 훈련된 머신 러닝(ML) 모델이 입력을 받아 해당 출력 또는 예측을 반환하는 데 걸리는 시간입니다. 밀리초(ms) 단위로 측정되며, 특히 즉각적인 피드백이 필요한 애플리케이션의 경우 인공 지능(AI) 분야에서 중요한 성능 지표입니다. 낮은 지연 시간은 역동적인 실제 환경에서 작동할 수 있는 반응성이 뛰어나고 효과적인 AI 시스템을 만드는 데 필수적입니다.
낮은 추론 지연 시간은 유용하려면 엄격한 시간 내에 예측을 제공해야 하는 실시간 추론을 가능하게 하는 데 핵심입니다. 많은 시나리오에서 몇 밀리초의 지연조차도 애플리케이션을 비효율적이거나 안전하지 않게 만들 수 있습니다. 예를 들어, 자율 주행 자동차는 충돌을 피하기 위해 보행자와 장애물을 즉시 식별해야 하는 반면, 대화형 AI 어시스턴트는 자연스러운 대화 흐름을 유지하기 위해 사용자 쿼리에 신속하게 응답해야 합니다. 낮은 지연 시간을 달성하는 것은 모델 배포의 핵심 과제이며 사용자 경험과 애플리케이션 실현 가능성에 직접적인 영향을 미칩니다.
추론 지연 시간은 많은 컴퓨터 비전 애플리케이션의 성공에 결정적인 요소입니다. 다음은 두 가지 예입니다.
모델이 추론을 수행하는 속도에 영향을 미치는 요인은 다음과 같습니다.
추론 지연 시간과 처리량은 함께 자주 논의되지만, 성능의 서로 다른 측면을 측정합니다.
하나를 최적화하면 다른 하나에 부정적인 영향을 미칠 수 있습니다. 예를 들어, 배치 크기를 늘리면 일반적으로 처리량이 향상되지만 해당 배치에서 단일 입력에 대한 결과를 얻는 데 걸리는 시간이 늘어나 대기 시간이 악화됩니다. 이 대기 시간과 처리량 간의 균형을 이해하는 것은 특정 운영 요구 사항을 충족하는 AI 시스템을 설계하는 데 기본적입니다.
추론 지연 시간 관리는 모델 정확도, 계산 비용 및 응답 시간 간의 균형을 맞추는 작업입니다. 궁극적인 목표는 애플리케이션의 성능 요구 사항을 충족하는 모델 및 배포 전략을 선택하는 것이며, 이 프로세스는 Ultralytics HUB와 같은 플랫폼을 사용하여 관리할 수 있습니다.