객체 감지 모델의 아키텍처에서 감지 헤드는 일반적으로 네트워크 파이프라인의 끝에 위치한 중요한 구성 요소입니다. 백본 (초기 특징을 추출하는)과 넥(이러한 특징을 집계하고 구체화하는)에 이어 감지 헤드는 특징 맵이라고 하는 처리된 이미지 정보를 가져와 최종 예측으로 변환합니다. 기본적으로 딥러닝 모델의 의사 결정 단위 역할을 하며, 경계 상자를 통해 어떤 물체가 있는지, 어디에 있는지 식별하고 각 탐지에 신뢰 점수를 할당합니다.
기능 및 운영
감지 헤드는 신경망의 이전 레이어에서 생성된 풍부하고 추상적인 특징을 처리합니다. 이러한 특징들은 입력 이미지 내의 잠재적인 물체와 관련된 복잡한 패턴, 질감, 모양을 인코딩합니다. 감지 헤드는 일반적으로 컨볼루션 레이어를 포함한 자체 레이어 세트를 사용하여 두 가지 주요 작업을 수행합니다:
- 분류: 감지된 각 객체(예: '사람', '자동차', '개')에 대한 클래스 레이블을 예측합니다. 이는 각 클래스에 대한 확률을 출력하기 위해 Softmax 또는 이와 유사한 활성화 함수로 정점에 이르는 기술을 사용하여 수행되는 경우가 많습니다.
- 현지화(회귀): 감지된 각 개체를 둘러싸는 경계 상자의 정확한 좌표를 예측하는 작업입니다. 이것은 회귀 문제로 취급됩니다.
다음과 같은 고급 모델 Ultralytics YOLO 와 같은 고급 모델은 이러한 작업을 신속하게 수행하도록 설계된 고효율 탐지 헤드를 통합하여 많은 애플리케이션에 중요한 실시간 추론을 가능하게 합니다. 예측은 중복 탐지를 제거하기 위해 비최대 억제(NMS) 와 같은 기술을 사용하여 사후 처리되는 경우가 많습니다.
주요 구성 요소 및 변형
감지 헤드 디자인은 특정 객체 감지 아키텍처에 따라 크게 달라집니다. 주요 변형은 다음과 같습니다:
- 앵커 기반 대 앵커 프리:
- 앵커 기반 감지기는 Faster R-CNN 및 이전 YOLO 버전과 같은 모델에서 흔히 사용되는 것으로, 특징 맵의 여러 위치에 있는 다양한 크기와 종횡비의 사전 정의된 앵커 박스 세트에 의존합니다. 헤드가 오프셋을 예측하여 이러한 앵커를 세분화하고 그 안에 있는 물체를 분류합니다.
- 다음과 같은 모델에 사용되는 앵커 프리 감지기YOLO11 와 같은 모델에 사용되는 앵커 프리 감지기는 미리 정의된 앵커 없이 중심점 및 치수와 같은 객체 속성을 직접 예측합니다. 이 접근 방식은 앵커 없는 감지의 장점에서 강조한 것처럼 설계를 단순화하고 잠재적으로 일반화를 개선할 수 있습니다.
- 결합된 헤드와 분리된 헤드: 일부 설계는 분류와 회귀 모두에 단일 레이어 세트(결합 헤드)를 사용하는 반면, 다른 설계는 각 작업에 대해 별도의 분기(분리 헤드)를 사용하므로 정확도를 향상시킬 수 있습니다. Ultralytics 헤드 모듈은 API 설명서에서 자세히 살펴볼 수 있습니다.
다른 구성 요소 및 작업과의 비교
탐지 헤드를 이해하려면 컴퓨터 비전(CV) 모델 및 관련 작업의 다른 부분과 구분해야 합니다:
- 백본: 백본 네트워크 (예: ResNet, VGG)는 입력 이미지에서 초기 특징 추출을 담당하며, 낮은 수준의 가장자리부터 높은 수준의 객체 부분까지 계층적 특징을 학습합니다.
- 목: 목: 목은 백본과 머리 사이에 위치하며, 다양한 크기의 물체를 감지하기 위해 백본의 여러 스케일에서 피처 피라미드 네트워크와 같은 기술을 사용하여 피처를 취합하여 보다 풍부한 컨텍스트를 제공합니다.
- 이미지 분류: 이미지 분류는 객체 감지와 달리 로컬라이제이션 없이 전체 이미지에 단일 레이블을 할당합니다.
- 세분화 작업: 시맨틱 분할은 이미지의 각 픽셀을 분류하는 반면, 인스턴스 분할은 픽셀 수준에서 동일한 객체 클래스의 여러 인스턴스를 구분하여 한 단계 더 나아갑니다. 객체 감지는 픽셀 마스크가 아닌 경계 상자를 제공합니다.
실제 애플리케이션
감지 헤드의 효율성은 객체 감지를 기반으로 구축된 수많은 AI 애플리케이션의 성능에 직접적인 영향을 미칩니다:
- 자율 주행: 감지 헤드는 보행자, 다른 차량, 교통 표지판, 장애물을 실시간으로 식별하고 위치를 파악하여 안전한 주행을 가능하게 하는 자율 주행 차량용 AI의 핵심 요소입니다. 웨이모와 같은 회사는 이 기술에 크게 의존하고 있습니다.
- 보안 및 감시: 보안 시스템에서 감지 헤드는 비디오 피드에서 허가받지 않은 사람, 버려진 물체 또는 특정 이벤트를 식별하여 자동 모니터링을 가능하게 합니다. 이는 Ultralytics 보안 경보 시스템 가이드와 같은 애플리케이션의 기반이 됩니다.
- 리테일 분석: 재고 관리, 진열대 모니터링, 고객 행동 분석에 사용됩니다.
- 의료 영상: 스캔에서 종양이나 골절과 같은 이상 징후를 감지하여 영상의학과 전문의를 지원하여 의료 이미지 분석에 기여합니다.
- 제조: 조립 라인에서 제품의 결함을 자동으로 감지하여 제조 품질 관리를 지원합니다.
다음과 같은 최신 객체 감지 모델 YOLOv8 및 YOLO11과 같은 프레임워크를 사용하여 구축되는 경우가 많습니다. PyTorch 또는 TensorFlow와 같은 프레임워크를 사용해 구축되는 YOLO11 은 COCO와 같은 벤치마크 데이터 세트에서 속도와 정확도 모두에 최적화된 정교한 탐지 헤드를 갖추고 있습니다. 이러한 모델의 훈련과 배포는 Ultralytics HUB와 같은 플랫폼을 통해 용이하게 이루어지며, 사용자는 특정 요구 사항에 맞는 강력한 탐지 기능을 활용할 수 있습니다. 성능 평가에는 종종 YOLO 성능 메트릭 가이드에 자세히 설명된 mAP 및 IoU와 같은 메트릭이 포함됩니다.