앵커 박스가 어떻게 자율 주행 및 소매업에 적용되어 앵커 기반 객체 감지, 분류, 회귀 및 NMS를 지원하는지 알아보세요.
앵커 박스는 많은 앵커 기반 객체 감지 모델의 기본 구성 요소로, 특정 높이와 너비를 가진 미리 정의된 참조 박스 세트의 역할을 합니다. 이러한 상자는 이미지에서 물체의 잠재적 위치와 규모에 대한 사전 정보, 즉 교육된 추측의 역할을 합니다. 모델은 무작정 객체를 검색하는 대신 이러한 앵커를 시작점으로 사용하여 오프셋을 예측하여 실제 객체와 일치하도록 위치와 크기를 세분화합니다. 이 접근 방식은 객체 로컬라이제이션의 복잡한 작업을 처음부터 상자를 생성하는 대신 모델이 이러한 템플릿을 조정하는 방법을 학습하는 보다 관리하기 쉬운 회귀 문제로 변환합니다.
핵심 메커니즘은 다양한 위치에 조밀하게 배열된 앵커 박스로 이미지를 타일링하는 것입니다. 각 위치마다 축척과 종횡비가 다른 여러 개의 앵커를 사용하여 다양한 모양과 크기의 물체를 효과적으로 감지할 수 있도록 합니다. 모델 훈련 과정에서 감지기의 백본은 먼저 입력 이미지에서 특징 맵을 추출합니다. 그런 다음 감지 헤드는 이러한 특징을 사용하여 각 앵커 박스에 대해 두 가지 작업을 수행합니다:
이 모델은 학습 중에 기준값 오브젝트와 가장 잘 일치하는 앵커 박스를 결정하기 위해 IoU(Intersection over Union) 와 같은 메트릭을 사용합니다. 예측 후에는 비최대 억제(NMS) 라는 후처리 단계를 적용하여 동일한 객체에 대한 중복 및 겹치는 박스를 제거합니다.
컴퓨터 비전에서 앵커 박스와 관련 용어를 구별하는 것이 중요합니다:
앵커 박스의 구조화된 접근 방식은 사물의 모양과 크기를 예측할 수 있는 시나리오에서 효과적입니다.
이러한 모델은 일반적으로 PyTorch 및 TensorFlow와 같은 강력한 딥 러닝 프레임워크를 사용하여 개발됩니다. 지속적인 학습을 위해 DeepLearning.AI와 같은 플랫폼에서는 컴퓨터 비전 기초에 대한 포괄적인 과정을 제공합니다.