Yolo 비전 선전
선전
지금 참여하기
용어집

Detection Head

객체 감지에서 detection head가 갖는 중요한 역할을 알아보고, detection head가 어떻게 특징 맵을 개선하여 객체 위치와 클래스를 정확하게 찾아내는지 알아보세요.

감지 헤드는 객체 감지 모델의 마지막이자 가장 중요한 구성 요소로, 인코딩된 이미지 특징을 실행 가능한 예측으로 변환하는 인코딩된 이미지 특징을 실행 가능한 예측으로 변환하는 의사 결정 계층입니다. 딥러닝 신경망의 맨 끝에 위치하며 딥러닝 신경망, 특히 백본과 목 뒤에 위치한 감지 헤드는 높은 수준의 피처 맵을 처리하여 최종 결과물을 생성합니다. 물체의 클래스와 이미지 내 정확한 위치입니다. 네트워크의 초기 계층은 특징 추출에 중점을 두지만 추출에 초점을 맞추는 반면, 감지 헤드는 이 데이터를 해석하여 다음과 같은 질문에 답합니다. "그것이 무엇인가?", "어디에 있는가?"라는 질문에 답합니다.

기능 및 아키텍처

탐지 헤드의 주된 책임은 분류와 회귀라는 두 가지 별개의 작업을 동시에 수행하는 것입니다. 회귀. 최신 객체 감지 아키텍처에서는 이러한 작업은 종종 헤드 내에서 별도의 분기에 의해 처리되는데, 이는 모델이 예측의 여러 측면에 대해 예측의 다양한 측면을 전문화할 수 있습니다.

  • 분류 분기: 이 하위 구성 요소는 다양한 범주에 확률 점수를 할당합니다(예, "사람", "자전거", "신호등"). 이 하위 구성 요소는 교차 엔트로피 손실과 같은 손실 함수를 사용하여 클래스의 차이를 학습합니다.
  • 회귀 분기: 헤드의 이 부분은 오브젝트를 포함하는 경계 상자의 바운딩 박스의 공간 좌표를 예측합니다. 상자 치수(x, y, 높이)를 구체화하여 상자 치수(x, y, 너비, 높이)를 세분화하여 실측 데이터에 가깝게 정렬하며, 종종 유니온에 대한 교차점(IoU) 손실.

탐지 헤드의 출력은 일반적으로 밀집된 후보 탐지 집합입니다. 결과를 확정하려면 다음과 같은 후처리 단계 비최대 억제(NMS) 와 같은 후처리 단계가 와 같은 후처리 단계를 적용하여 겹치는 상자를 필터링하고 가장 확실한 예측만 유지합니다.

탐지 헤드의 유형

감지 헤드의 설계에 따라 모델이 객체를 로컬라이즈하는 문제에 접근하는 방식이 결정됩니다.

  • 앵커 기반 헤드: 기존 1단계 물체 감지기와 같은 초기 YOLO 버전은 사전 정의된 앵커 박스에 의존합니다. 앵커 박스는 헤드는 이러한 고정 기준 상자에서 오프셋을 예측합니다. 이 접근 방식은 효과적이지만, 앵커 하이퍼파라미터의 앵커 하이퍼파라미터를 신중하게 조정해야 합니다.
  • 앵커 프리 헤드: 다음을 포함한 최첨단 모델 Ultralytics YOLO11를 비롯한 앵커 프리 감지기를 활용합니다. 이 헤드는 사전 설정된 상자에 의존하지 않고 사전 설정 상자에 의존하지 않고 피처 맵 픽셀에서 직접 객체의 중심과 크기를 예측합니다. 이는 크게 모델 아키텍처를 간소화하고 다양한 물체 형태에 대한 일반화를 개선합니다.

실제 애플리케이션

탐지 헤드의 효율성과 정확성은 복잡한 환경에서 인공 지능(AI)을 배포하려면 배포하는 데 필수적입니다.

  1. 의료 진단: In 의료 이미지 분석, 감지 헤드 는 종양이나 골절과 같은 이상 징후를 엑스레이와 MRI 스캔에서 정확히 찾아내도록 훈련됩니다. 예를 들어 의료 분야의 AI는 고정밀 헤드에 의존하여 를 사용하여 오탐을 줄여 영상의학과 전문의의 조기 질병 발견을 돕습니다.
  2. 소매 분석: 스마트 스토어는 컴퓨터 비전을 사용하여 재고를 track 고객 행동을 모니터링합니다. 행동을 모니터링합니다. 감지 기능 리테일 애플리케이션용 AI는 특정 제품을 식별하거나 특정 제품을 식별하거나 분실 방지를 위해 의심스러운 행동을 detect 실시간으로 비디오 피드를 처리할 수 있습니다.

머리 대 백본 및 목 감지

탐지 헤드를 다른 주요 구성 요소와 구별하는 것이 도움이 됩니다. 컨볼루션 신경망(CNN):

  • 백본: 백본: 백본 (예: ResNet 또는 CSPDarknet)는 입력 이미지에서 원시 시각적 특징을 추출하는 역할을 담당합니다.
  • 목: 목: 목, 종종 피처 피라미드 네트워크(FPN)를 혼합하고 를 혼합하고 이러한 피처를 세분화하여 다양한 규모의 컨텍스트를 집계합니다.
  • 헤드: 탐지 헤드는 이러한 정제된 피처를 사용하여 최종 클래스와 조정된 예측을 조정합니다.

구현 예시

다음 Python 코드 스니펫은 다음을 사용하여 사전 학습된 YOLO11 모델의 탐지 헤드를 검사하는 방법을 보여줍니다. 를 사용하여 ultralytics 패키지를 추가합니다. 이는 사용자가 추론을 담당하는 최종 계층의 구조를 이해하는 데 도움이 됩니다. 추론.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Inspect the final detection head layer
# This typically reveals the number of classes (nc) and anchors/outputs
print(model.model.model[-1])

# Run inference to see the head's output in action
results = model("https://ultralytics.com/images/bus.jpg")

탐지 헤드에 대한 이해는 모델 성능을 최적화하거나 모델 성능을 최적화하거나 고급 작업을 수행하려면 새로운 맞춤형 데이터 세트에 대한 모델 학습을 위해 헤드를 자주 교체하는 전이 학습과 같은 사용자 지정 데이터 세트. 연구원들은 다음과 같은 메트릭을 개선하기 위해 다음과 같은 지표를 개선하기 위해 새로운 헤드 디자인을 평균 평균 정밀도(mAP)와 같은 지표를 개선하기 위해 지속적으로 실험하고 있습니다. 컴퓨터 비전이 달성할 수 있는 한계를 넓히고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기