실시간 추론의 힘을 탐구하여 즉각적인 AI 예측을 경험하세요. Ultralytics 에지 디바이스 및 로봇 공학에 어떻게 저지연 결과를 제공하는지 알아보세요.
실시간 추론은 훈련된 머신러닝(ML) 모델이 실시간 입력 데이터를 받아 거의 즉각적으로 예측을 생성하는 과정을 의미합니다. 데이터를 수집하여 나중에 일괄 처리하는 오프라인 처리와 달리, 실시간 추론은 즉석에서 이루어져 시스템이 환경에 신속하고 민첩하게 반응할 수 있게 합니다. 이러한 능력은 현대 인공지능(AI)애플리케이션의 핵심으로, 장치가 데이터를 인식하고 해석하며 수 밀리초 내에 행동하도록 합니다.
실시간 성능을 평가하는 주요 지표는 추론 지연 시간입니다. 이는 데이터가 모델에 입력되는 순간(예: 비디오 카메라의 프레임)부터 모델이 바운딩 박스나 분류 라벨과 같은 출력을 생성하는 순간까지의 시간 지연을 측정합니다. 애플리케이션이 "실시간"으로 간주되려면 지연 시간이 입력되는 데이터 스트림의 속도에 맞출 수 있을 만큼 충분히 낮아야 합니다.
예를 들어, 초당 30프레임(FPS)으로 실행되는 영상 이해 작업에서 시스템은 각 프레임을 처리하기 위해 약 33밀리초의 엄격한 시간 예산을 가집니다. 추론에 더 오랜 시간이 소요되면 시스템에 지연이 발생하여 프레임 드롭이나 응답 지연으로 이어질 수 있습니다. 이를 달성하려면 종종 GPU를 사용한 하드웨어 가속이나 NVIDIA 같은 전용 엣지 AI 장치가 필요합니다.
실시간 워크플로우와 배치 처리를 구분하는 것이 유용합니다. 둘 다 예측을 생성하는 과정이 포함되지만, 그들의 목표와 아키텍처는 크게 다릅니다:
순간적인 의사결정 능력은 역동적인 환경에서 자동화를 가능하게 함으로써 다양한 산업을 변화시켰다.
실시간 애플리케이션을 위한 모델 배포는 대상 하드웨어에서 효율적으로 실행되도록 최적화가 필요한 경우가 많습니다. 모델 양자화 같은 기법은 모델 가중치의 정밀도(예: float32에서 int8로)를 낮추어 메모리 사용량을 줄이고 추론 속도를 높이며 정확도에 미치는 영향을 최소화합니다.
개발자는 Ultralytics 활용하여 이 과정을 간소화할 수 있습니다. 이 플랫폼은 훈련을 단순화하고 사용자가 모델을 TensorRT와 같은 최적화된 형식으로 내보낼 수 있도록 합니다. TensorRTNVIDIA , OpenVINO ( Intel ), TFLite 모바일 배포용.
다음 Python 웹캠 피드에 대해 실시간 추론을 실행하는 방법을 보여줍니다.
ultralytics 도서관. 그것은 YOLO26 나노
모델로, 에지 디바이스에서 고속 성능을 위해 특별히 설계되었습니다.
from ultralytics import YOLO
# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")
# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)
# Iterate through the generator to process frames as they arrive
for result in results:
# Example: Print the number of objects detected in the current frame
print(f"Detected {len(result.boxes)} objects")