앵커 기반 감지기가 정밀한 위치 파악, 확장 적응성, 실제 애플리케이션을 통해 물체 감지를 혁신하는 방법을 알아보세요.
앵커 기반 감지기는 객체 감지 작업을 처리하기 위한 컴퓨터 비전(CV)의 중요하고 기본적인 접근 방식입니다. 이러한 모델은 특정 크기와 종횡비를 가진 사전 정의된 참조 상자 세트(일반적으로 '앵커' 또는 '프리어'라고 함)를 사용하여 작동합니다. 앵커는 이미지 전체에 분포되어 초기 추측 또는 템플릿 역할을 하며, 특히 다양한 크기와 모양의 물체를 다룰 때 모델이 물체의 위치와 종류를 보다 효과적으로 예측할 수 있도록 해줍니다. 영향력 있는 초기 물체 감지 모델로는 특정 버전의 Ultralytics YOLO 제품군 등 많은 영향력 있는 초기 물체 감지 모델이 이 기술을 활용했습니다.
앵커 기반 탐지기의 기본 개념은 입력 이미지에 여러 위치와 축척으로 미리 정의된 앵커 박스를 조밀하게 그리드로 오버레이하는 것입니다. 각 앵커 박스는 특정 크기와 모양을 가진 잠재적 물체에 해당합니다. 모델 훈련 과정에서 감지기는 모든 앵커에 대해 두 가지 주요 사항을 학습합니다. 첫째, 앵커 박스에 관련 객체 또는 배경이 포함되어 있는지 분류하고 둘째, 실제 객체의 경계 박스와 정확하게 일치하도록 앵커의 위치와 치수를 개선(회귀라고 하는 프로세스)합니다.
번화한 거리의 이미지에서 다양한 차량을 감지한다고 가정해 보겠습니다. 앵커 기반 모델은 모든 픽셀 그룹을 분석하는 대신 미리 정의된 상자 템플릿(보행자는 작은 사각형, 자동차는 중간 사각형, 버스는 큰 직사각형)을 사용합니다. 이러한 템플릿(앵커)은 이미지 전체에 배치됩니다. 앵커가 자동차와 상당히 겹치는 경우 모델은 이를 '자동차'로 분류하는 방법을 학습하고 자동차에 완벽하게 맞도록 앵커의 좌표와 크기를 조정합니다. 도로나 건물만 덮고 있는 앵커는 '배경'으로 분류됩니다. 사전 정의된 모양에 따라 안내되는 이러한 체계적인 접근 방식은 물체 감지의 복잡성을 관리하는 데 도움이 됩니다. 성능은 일반적으로 IoU(Intersection over Union) 및 mAP(평균 정밀도)와 같은 지표를 사용하여 평가됩니다.
강력한 컨볼루션 신경망(CNN)을 백본으로 활용하는 앵커 기반 탐지기는 뚜렷한 이점을 제공합니다:
앵커 기반 탐지기는 수많은 실제 시나리오에서 성공적으로 배포되었습니다:
최근에는 앵커가 없는 감지기가 인기 있는 대안으로 떠오르고 있습니다. 앵커 기반 모델(예, Ultralytics YOLOv5)과 달리, 앵커 프리 접근 방식은 주요 지점(예: 물체의 중심 또는 모서리)을 식별하거나 한 지점에서 물체의 경계까지의 거리를 예측하여 물체의 위치와 크기를 직접 예측하므로 미리 정의된 앵커 모양이 필요하지 않습니다.
주요 차이점은 다음과 같습니다:
YOLOv4와 같은 앵커 기반 탐지기는 매우 성공적이었지만, 다음과 같은 많은 최신 아키텍처가 있습니다. Ultralytics YOLO11를 비롯한 많은 최신 아키텍처는 단순성과 효율성 측면에서 이점을 활용하기 위해 앵커 프리 설계를 채택했습니다. YOLO11 앵커 프리 감지의 장점을 살펴보고 다양한 YOLO 모델 간의 비교를 확인할 수 있습니다.
앵커 기반이든 앵커가 없든 객체 탐지 모델을 개발하고 배포하려면 다음과 같은 프레임워크를 사용해야 합니다. PyTorch 또는 TensorFlow 와 같은 프레임워크와 OpenCV와 같은 라이브러리를 사용해야 합니다. Ultralytics HUB와 같은 플랫폼은 다양한 모델 아키텍처를 지원하면서 사용자 지정 모델을 훈련하고, 데이터 세트를 관리하고, 솔루션을 배포하기 위한 간소화된 워크플로를 제공합니다. 추가 학습을 위해 Papers With Code와 같은 리소스에는 최신 모델이 나열되어 있으며, DeepLearning.AI와 같은 플랫폼의 강좌에서는 기본 개념을 다룹니다.