Real-time Inference
즉각적인 AI 예측을 위한 실시간 추론의 강력함을 확인해 보십시오. Ultralytics YOLO26이 어떻게 엣지 디바이스와 로봇 공학을 위한 저지연 결과를 제공하는지 알아보십시오.
실시간 추론이란 학습된 머신러닝(ML) 모델이 실시간 입력 데이터를 받아 거의 즉각적으로 예측 결과를 생성하는 프로세스를 의미합니다. 나중에 데이터를 수집하여 대량으로 분석하는 오프라인 처리와 달리, 실시간 추론은 즉석에서 발생하므로 시스템이 주변 환경에 빠르고 민첩하게 반응할 수 있습니다. 이러한 기능은 현대의 인공지능(AI) 애플리케이션의 핵심이며, 장치가 밀리초 단위 내에서 데이터를 인식하고 해석하며 이에 따라 행동할 수 있게 합니다.
Link to this section낮은 지연 시간의 중요성#
실시간 성능을 평가하는 주요 지표는 추론 지연 시간(inference latency)입니다. 이는 비디오 카메라의 프레임과 같이 데이터가 모델에 입력되는 순간부터 모델이 BBox나 분류 레이블과 같은 결과를 생성하는 순간까지의 시간 지연을 측정합니다. 애플리케이션이 "실시간"으로 간주되려면 지연 시간이 들어오는 데이터 스트림의 속도와 일치할 만큼 충분히 낮아야 합니다.
For example, in video understanding tasks running at 30 frames per second (FPS), the system has a strict time budget of approximately 33 milliseconds to process each frame. If the inference takes longer, the system introduces lag, potentially leading to dropped frames or delayed responses. achieving this often requires hardware acceleration using GPUs or specialized Edge AI devices like the NVIDIA Jetson.
Link to this section실시간 추론 vs. 배치 추론#
실시간 워크플로우와 배치 처리(batch processing)를 구분하는 것이 유용합니다. 두 방식 모두 예측 결과를 생성하지만, 목표와 아키텍처는 크게 다릅니다.
- 실시간 추론: 낮은 지연 시간을 우선시합니다. 데이터가 도착하는 즉시 단일 데이터 포인트(또는 매우 작은 배치)를 처리합니다. 이는 차가 보행자를 즉시 감지하여 제동해야 하는 자율주행 자동차와 같은 인터랙티브 애플리케이션에 필수적입니다.
- 배치 추론: 높은 처리량을 우선시합니다. 대량의 데이터를 수집하고 한꺼번에 처리합니다. 이는 야간 재고 보고서 생성이나 과거 빅데이터(big data) 추세 분석과 같이 긴급하지 않은 작업에 적합합니다.
Link to this section실제 애플리케이션 사례#
찰나의 결정을 내리는 능력은 역동적인 환경에서의 자동화를 가능하게 함으로써 다양한 산업을 변화시켰습니다.
- 스마트 제조: 제조업 분야의 AI에서 컨베이어 벨트 위에 위치한 카메라는 실시간 추론을 사용하여 자동화된 품질 관리를 수행합니다. 객체 탐지(object detection) 모델은 고속으로 움직이는 제품의 결함이나 이물질을 즉시 식별할 수 있습니다. 이상 징후가 감지되면 시스템은 로봇 팔을 작동시켜 즉시 해당 품목을 제거함으로써 고품질 제품만 포장 단계로 전달되도록 합니다.
- 감시 및 보안: 현대의 보안 시스템은 경계 구역을 모니터링하기 위해 컴퓨터 비전(computer vision)에 의존합니다. 단순히 영상을 녹화하는 대신, 이러한 카메라는 실시간 사람 탐지(person detection) 또는 얼굴 인식(face recognition)을 실행하여 무단 침입이 발생하는 즉시 보안 요원에게 알립니다.
- 로봇 공학: 로봇 공학 분야의 AI에서 로봇은 복잡한 물리적 공간을 탐색하기 위해 자세 추정(pose estimation)을 사용합니다. 창고 로봇은 장애물과 작업자의 위치를 지속적으로 추론하여 안전하고 효율적으로 경로를 계획해야 합니다.
Link to this section최적화 및 배포#
실시간 애플리케이션을 위한 모델 배포에는 대상 하드웨어에서 효율적으로 실행되도록 하는 최적화가 필요한 경우가 많습니다. 모델 양자화(model quantization)와 같은 기법은 모델 가중치의 정밀도를 낮추어(예: float32에서 int8로) 정확도(accuracy)에 미치는 영향을 최소화하면서 메모리 사용량을 줄이고 추론 속도를 높입니다.
개발자는 Ultralytics Platform을 활용하여 이 과정을 간소화할 수 있습니다. 이 플랫폼은 학습을 단순화하며 사용자가 NVIDIA GPU용 TensorRT, Intel CPU용 OpenVINO, 모바일 배포용 TFLite와 같은 최적화된 형식으로 모델을 내보낼 수 있도록 지원합니다.
Link to this section코드 예제#
다음 Python 스니펫은 ultralytics 라이브러리를 사용하여 웹캠 피드에서 실시간 추론을 실행하는 방법을 보여줍니다. 이 코드는 엣지 장치에서의 고속 성능을 위해 특별히 설계된 YOLO26 Nano 모델을 사용합니다.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")





