로봇 공학 및 감시와 같은 실시간 응용 분야에 이상적인 YOLO와 같은 단일 단계 객체 감지기의 속도와 효율성을 경험해 보세요.
원-스테이지 객체 검출기는 컴퓨터 비전에서 속도와 효율성을 위해 설계된 딥러닝 모델의 한 종류입니다. 이 모델은 신경망의 단일 통합 패스를 통해 객체 위치 파악 및 분류를 수행합니다. 이는 작업을 두 개의 개별 단계로 나누는 더 복잡한 상대 모델인 투-스테이지 객체 검출기와 대조됩니다. 객체 검출을 직접적인 회귀 문제로 취급함으로써 원-스테이지 모델은 이미지 특징에서 경계 상자와 클래스 확률을 직접 예측하므로 매우 빠르며 실시간 추론이 필요한 애플리케이션에 적합합니다.
단일 단계 감지기는 단일 CNN(Convolutional Neural Network)를 통해 전체 이미지를 한 번에 처리합니다. 네트워크 아키텍처는 여러 작업을 동시에 수행하도록 설계되었습니다. 먼저 네트워크의 백본이 특징 추출을 수행하여 다양한 스케일에서 입력 이미지의 풍부한 표현을 생성합니다. 그런 다음 이러한 특징은 특수 감지 헤드로 전달됩니다.
이 헤드는 바운딩 박스 세트, 객체의 존재를 나타내는 각 상자에 대한 신뢰도 점수, 각 객체가 특정 클래스에 속할 확률을 예측하는 역할을 합니다. 이 전체 프로세스는 단일 순방향 패스에서 발생하며, 이는 높은 속도의 핵심입니다. 그런 다음 Non-Maximum Suppression(NMS)와 같은 기술을 사용하여 중복되고 겹치는 탐지를 필터링하여 최종 출력을 생성합니다. 모델은 위치 손실(바운딩 박스가 얼마나 정확한지)과 분류 손실(클래스 예측이 얼마나 정확한지)을 결합한 특수 손실 함수를 사용하여 학습됩니다.
주요 차이점은 방법론에 있습니다. 원-스테이지(One-stage) 검출기는 속도와 단순성을 위해 구축되었으며, 투-스테이지(Two-stage) 검출기는 정확도를 우선시하지만, 최신 모델에서는 이러한 구분이 점점 덜 두드러지고 있습니다.
몇 가지 영향력 있는 원-스테이지 아키텍처가 개발되었으며, 각 아키텍처는 고유한 기여를 했습니다.
원-스테이지 감지기의 속도와 효율성은 수많은 AI 기반 애플리케이션에서 없어서는 안 될 존재가 되었습니다.
단단계 검출기의 주요 장점은 놀라운 속도로, 실시간 객체 탐지를 저전력 에지 AI 장치(예: NVIDIA Jetson 또는 Raspberry Pi)를 포함한 다양한 하드웨어에서 사용할 수 있습니다. 또한 더 간단한 엔드 투 엔드 아키텍처를 통해 PyTorch 또는 TensorFlow와 같은 프레임워크를 사용하여 더 쉽게 훈련하고 배포할 수 있습니다.
역사적으로 주요 제한 사항은 특히 매우 작거나 심하게 가려진 객체를 처리할 때 2단계 검출기에 비해 낮은 정확도였습니다. 그러나 YOLO11과 같은 모델에서 볼 수 있듯이 모델 아키텍처 및 훈련 기술의 최근 발전으로 인해 이러한 성능 격차가 크게 좁혀져 광범위한 컴퓨터 비전 작업에 대해 속도와 높은 정확도의 강력한 조합을 제공합니다. Ultralytics HUB와 같은 플랫폼은 특정 요구 사항에 맞게 맞춤형 모델 훈련 프로세스를 더욱 간소화합니다.