로봇 공학 및 감시와 같은 실시간 애플리케이션에 이상적인 YOLO와 같은 1단계 물체 감지기의 속도와 효율성을 알아보세요.
1단계 객체 감지기는 컴퓨터 비전의 속도와 효율성을 위해 설계된 딥러닝 모델의 한 종류입니다. 이 모델은 신경망의 단일 통합 패스에서 객체 위치 파악과 분류를 수행합니다. 이는 작업을 두 단계로 나누는 더 복잡한 2단계 물체 감지기와는 대조적입니다. 1단계 모델은 물체 감지를 간단한 회귀 문제로 처리함으로써 이미지 특징에서 직접 경계 상자와 클래스 확률을 예측하므로 매우 빠르고 실시간 추론이 필요한 애플리케이션에 적합합니다.
1단계 디텍터는 단일 컨볼루션 신경망(CNN)을 통해 전체 이미지를 한 번에 처리합니다. 네트워크의 아키텍처는 여러 작업을 동시에 수행하도록 설계되었습니다. 먼저 네트워크의 백본이 특징 추출을 수행하여 다양한 스케일로 입력 이미지의 풍부한 표현을 생성합니다. 그런 다음 이러한 특징은 특수 감지 헤드에 공급됩니다.
이 헤드는 일련의 경계 상자, 물체의 존재를 나타내는 각 상자에 대한 신뢰 점수, 각 물체가 특정 클래스에 속할 확률을 예측하는 역할을 담당합니다. 이 모든 과정은 단 한 번의 전진 패스로 이루어지며, 이것이 빠른 속도의 핵심입니다. 그런 다음 비최대 억제(NMS) 와 같은 기술을 사용하여 중복 및 중복 탐지를 필터링하여 최종 결과물을 생성합니다. 모델은 지역화 손실(바운딩 박스의 정확도)과 분류 손실(클래스 예측의 정확도)을 결합한 특수 손실 함수를 사용하여 학습됩니다.
가장 큰 차이점은 방법론에 있습니다. 1단계 탐지기는 속도와 단순성을 위해 설계된 반면, 2단계 탐지기는 정확성을 우선시하지만 최신 모델에서는 이러한 구분이 점점 더 뚜렷해지고 있습니다.
여러 가지 영향력 있는 1단계 아키텍처가 개발되었으며, 각 아키텍처는 고유한 기여를 하고 있습니다:
1단계 감지기의 속도와 효율성은 수많은 AI 기반 애플리케이션에서 없어서는 안 될 필수 요소로 자리 잡았습니다:
1단계 감지기의 가장 큰 장점은 놀라운 속도로 NVIDIA Jetson 또는 Raspberry Pi와 같은 저전력 엣지 AI 장치를 비롯한 다양한 하드웨어에서 실시간 객체 감지가 가능하다는 점입니다. 또한 더 간단한 엔드투엔드 아키텍처 덕분에 PyTorch나 TensorFlow와 같은 프레임워크를 사용하여 더 쉽게 훈련하고 배포할 수 있습니다.
역사적으로 가장 큰 한계는 특히 매우 작거나 심하게 가려진 물체를 처리할 때 2단계 디텍터에 비해 정확도가 낮다는 점이었습니다. 하지만 최근 모델 아키텍처와 훈련 기법의 발전으로 YOLO11과 같은 모델에서 볼 수 있듯이 이러한 성능 격차가 크게 좁혀져 다양한 컴퓨터 비전 작업에 속도와 높은 정확도의 강력한 조합을 제공합니다. Ultralytics HUB와 같은 플랫폼은 특정 요구 사항에 맞는 맞춤형 모델을 훈련하는 프로세스를 더욱 간소화합니다.