용어집

실시간 추론

실시간 추론의 힘을 탐구하여 즉각적인 AI 예측을 경험하세요. Ultralytics 에지 디바이스 및 로봇 공학에 어떻게 저지연 결과를 제공하는지 알아보세요.

실시간 추론은 훈련된 머신러닝(ML) 모델이 실시간 입력 데이터를 받아 거의 즉각적으로 예측을 생성하는 과정을 의미합니다. 데이터를 수집하여 나중에 일괄 처리하는 오프라인 처리와 달리, 실시간 추론은 즉석에서 이루어져 시스템이 환경에 신속하고 민첩하게 반응할 수 있게 합니다. 이러한 능력은 현대 인공지능(AI)애플리케이션의 핵심으로, 장치가 데이터를 인식하고 해석하며 수 밀리초 내에 행동하도록 합니다.

짧은 지연 시간의 중요성

실시간 성능을 평가하는 주요 지표는 추론 지연 시간입니다. 이는 데이터가 모델에 입력되는 순간(예: 비디오 카메라의 프레임)부터 모델이 바운딩 박스나 분류 라벨과 같은 출력을 생성하는 순간까지의 시간 지연을 측정합니다. 애플리케이션이 "실시간"으로 간주되려면 지연 시간이 입력되는 데이터 스트림의 속도에 맞출 수 있을 만큼 충분히 낮아야 합니다.

예를 들어, 초당 30프레임(FPS)으로 실행되는 영상 이해 작업에서 시스템은 각 프레임을 처리하기 위해 약 33밀리초의 엄격한 시간 예산을 가집니다. 추론에 더 오랜 시간이 소요되면 시스템에 지연이 발생하여 프레임 드롭이나 응답 지연으로 이어질 수 있습니다. 이를 달성하려면 종종 GPU를 사용한 하드웨어 가속이나 NVIDIA 같은 전용 엣지 AI 장치가 필요합니다.

실시간 추론과 일괄 추론 비교

실시간 워크플로우와 배치 처리를 구분하는 것이 유용합니다. 둘 다 예측을 생성하는 과정이 포함되지만, 그들의 목표와 아키텍처는 크게 다릅니다:

실시간 추론: 낮은 지연 시간을 최우선으로 합니다. 단일 데이터 포인트(또는 매우 작은 배치)가 도착하는 즉시 처리합니다. 이는 자율주행 차량과 같은 상호작용 애플리케이션에 필수적입니다. 차량이 detect 즉시 detect 제때 제동해야 하는 경우가 이에 해당합니다.
배치 추론: 높은 처리량을 우선시합니다. 대량의 데이터를 수집하여 한 번에 처리합니다. 이는 야간 재고 보고서 생성이나 과거 빅데이터 트렌드 분석과 같은 비긴급 작업에 적합합니다.

실제 애플리케이션

순간적인 의사결정 능력은 역동적인 환경에서 자동화를 가능하게 함으로써 다양한 산업을 변화시켰다.

스마트 제조: 제조 현장의 인공지능에서, 컨베이어 벨트 위에 설치된 카메라들은 실시간 추론을 통해 자동화된 품질 관리를 수행합니다. 물체 탐지 모델은 고속으로 이동하는 제품 내 결함이나 이물질을 즉시 식별할 수 있습니다. 이상이 감지되면 시스템은 로봇 팔을 작동시켜 해당 제품을 즉시 제거함으로써, 오직 고품질 제품만이 포장 단계로 이동하도록 보장합니다.
감시 및 보안: 현대 보안 시스템은 경계 감시를 위해 컴퓨터 비전을 활용합니다. 단순히 영상을 기록하는 대신, 이 카메라들은 실시간 인물 감지 또는 얼굴 인식 기능을 실행하여 무단 접근이 발생하는 즉시 보안 담당자에게 경보를 발령합니다.
로봇공학: 로봇공학 분야의 인공지능에서 로봇은 복잡한 물리적 공간을 탐색하기 위해 자세 추정 기술을 활용합니다. 창고 로봇은 안전하고 효율적으로 경로를 계획하기 위해 장애물과 작업자의 위치를 지속적으로 추론해야 합니다.

최적화 및 배포

실시간 애플리케이션을 위한 모델 배포는 대상 하드웨어에서 효율적으로 실행되도록 최적화가 필요한 경우가 많습니다. 모델 양자화 같은 기법은 모델 가중치의 정밀도(예: float32에서 int8로)를 낮추어 메모리 사용량을 줄이고 추론 속도를 높이며 정확도에 미치는 영향을 최소화합니다.

개발자는 Ultralytics 활용하여 이 과정을 간소화할 수 있습니다. 이 플랫폼은 훈련을 단순화하고 사용자가 모델을 TensorRT와 같은 최적화된 형식으로 내보낼 수 있도록 합니다. TensorRTNVIDIA , OpenVINO ( Intel ), TFLite 모바일 배포용.

코드 예제

다음 Python 웹캠 피드에 대해 실시간 추론을 실행하는 방법을 보여줍니다. ultralytics 도서관. 그것은 YOLO26 나노 모델로, 에지 디바이스에서 고속 성능을 위해 특별히 설계되었습니다.

from ultralytics import YOLO

# Load the YOLO26 Nano model, optimized for speed and real-time tasks
model = YOLO("yolo26n.pt")

# Run inference on the default webcam (source="0")
# 'stream=True' returns a generator for memory-efficient processing
# 'show=True' displays the video feed with bounding boxes in real-time
results = model.predict(source="0", stream=True, show=True)

# Iterate through the generator to process frames as they arrive
for result in results:
    # Example: Print the number of objects detected in the current frame
    print(f"Detected {len(result.boxes)} objects")

실시간 추론

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

짧은 지연 시간의 중요성

실시간 추론과 일괄 추론 비교

실제 애플리케이션

최적화 및 배포

코드 예제

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입