Ultralytics YOLO 통한 실시간 추론으로 자율 주행 및 보안 시스템과 같은 AI 애플리케이션을 즉시 예측할 수 있는 방법을 알아보세요.
실시간 추론은 훈련된 머신러닝 모델이 머신 러닝 모델이 실시간 입력 데이터를 받아 거의 즉각적으로 예측을 생성하는 프로세스입니다. 여기서 '실시간'이란 시스템이 들어오는 데이터의 흐름을 따라잡기에 충분한 처리 속도가 들어오는 데이터의 흐름을 따라잡기에 충분하여 시스템이 즉각적인 결정을 내릴 수 있다는 것을 의미합니다. 이 기능은 최신 컴퓨터 비전 애플리케이션의 초석입니다. 컴퓨터 비전 애플리케이션의 초석이며, 디바이스가 최소한의 지연으로 주변 환경을 인식하고 반응할 수 있게 해줍니다.
실시간 성능을 평가하는 주요 지표는 다음과 같습니다. 추론 지연 시간으로, 모델이 입력을 받아 출력을 생성하는 데 경과 시간을 측정하는 추론 지연 시간입니다. 시스템이 실시간이라고 간주되려면 이 지연 시간은 사용 사례의 특정 시간 제약 조건을 충족할 수 있을 만큼 충분히 짧아야 합니다. 예를 들어 스트림을 분석하는 비디오 이해 시스템 을 분석하는 비디오 이해 시스템은 각 프레임을 처리하는 데 약 33밀리초가 소요됩니다. 추론에 더 오래 걸리면 프레임 이 삭제되고 시스템이 지연됩니다.
이 속도를 달성하려면 종종 다음과 같은 특수 하드웨어를 활용해야 합니다. GPU 또는 전용 에지 AI 가속기나 NVIDIA 젯슨 플랫폼. 또한 엔지니어는 종종 모델 최적화 기술 을 사용하여 정확도를 크게 떨어뜨리지 않으면서 계산 복잡성을 줄입니다.
실시간 워크플로를 다음과 같이 구분하는 것이 중요합니다. 배치 추론과 구별하는 것이 중요합니다. 실시간 추론은 지연 시간을 최소화하기 위해 데이터 포인트가 도착하는 대로 개별적으로 처리하는 반면, 배치 추론은 다음을 수행합니다. 은 데이터를 큰 덩어리로 그룹화하여 나중에 함께 처리합니다.
즉각적인 예측을 생성하는 기능은 순식간에 의사 결정이 필요한 복잡한 작업을 자동화하여 여러 산업을 변화시켰습니다. 복잡한 작업을 자동화하여 여러 산업을 변화시켰습니다.
실시간 애플리케이션에 필요한 속도를 달성하기 위해 개발자는 최적화된 추론 엔진을 사용하여 모델을 배포하는 경우가 많습니다. 엔진을 사용하여 모델을 배포합니다. 다음과 같은 프레임워크 TensorRT 와 같은 프레임워크 하드웨어 또는 OpenVINO 와 같은 프레임워크는 성능을 크게 가속화할 수 있습니다. 또한 다음과 같은 기술을 사용하면 모델 양자화(모델가중치의 정밀도를 부동 소수점 값에서 정수 값으로 정밀도를 부동 소수점 값에서 정수 값으로 낮추는 모델 정량화와 같은 기술은 메모리 공간을 크게 줄이고 임베디드 시스템의 임베디드 시스템에서 실행 속도를 향상시킬 수 있습니다.
다음 Python 예제는 웹캠 피드에서 실시간 추론을 실행하는 방법을 보여줍니다.
ultralytics 라이브러리.
from ultralytics import YOLO
# Load the official YOLO11 nano model, optimized for speed
model = YOLO("yolo11n.pt")
# Run inference on the default webcam (source=0)
# 'stream=True' creates a generator for memory-efficient real-time processing
# 'show=True' displays the video feed with prediction overlays
results = model.predict(source="0", stream=True, show=True)
# Process the generator to keep the stream running
for result in results:
pass
5G 연결이 확장되고 하드웨어가 더욱 강력해짐에 따라, 실시간 AI의 범위가 점점 더 넓어지고 있습니다. 다음과 같은 개념 사물 인터넷(IoT) 와 같은 개념은 더욱 지능화되어 단순한 데이터 수집자에서 능동적인 의사 결정자로 변모하고 있습니다. 향후 개발 예정 사항 곧 출시될 YOLO26과 같은 향후 개발은 이러한 경계를 더욱 확장하는 것을 목표로 합니다. 더 작고 빠른 네이티브 엔드투엔드 모델을 제공함으로써 이러한 한계를 더욱 확장하는 것을 목표로 합니다. 스마트 시티와 의료 기기가 실시간으로 원활하게 작동할 수 있도록 보장합니다.

