기능 피라미드 네트워크(FPN)가 어떻게 YOLO11 및 최신 CV 시스템에서 크고 작은 객체에 대한 정확도를 높여 멀티스케일 객체 감지를 지원하는지 알아보세요.
피처 피라미드 네트워크(FPN)는 현대적인 컴퓨터 비전(CV) 설계된 다양한 스케일의 물체를 높은 정밀도로 detect 설계되었습니다. 기존 딥 러닝(DL) 모델은 종종 공간 해상도가 손실되는 딥 레이어에 의존하기 때문에 작은 물체를 인식하는 데 어려움을 겪었습니다. FPN 주소 의 피라미드 구조를 구축하여 이 문제를 해결합니다. 피처 맵 피처 맵의 피라미드 구조를 저해상도, 의미적으로 강력한 피처와 고해상도, 공간적으로 상세한 피처를 결합하는 피라미드 구조를 구축합니다. 이 디자인은 많은 경우 중요한 '목' 역할을 합니다. 객체 감지 아키텍처로 알려진 초기 특징 추출기와 백본-로 알려진 초기 특징 추출기를 최종 예측 레이어 또는 탐지 헤드. FPN은 여러 수준에서 정보를 효율적으로 공유함으로써 다음과 같은 모델을 지원합니다. YOLO11 과 같은 모델이 한 이미지 내에서 작은 멀리 떨어진 디테일과 크고 눈에 잘 띄는 피사체를 모두 정확하게 식별할 수 있습니다.
피처 피라미드 네트워크의 핵심 혁신은 시각 정보를 처리하는 세 가지 단계에 있습니다. 단계에 있습니다. 이 구조를 통해 네트워크는 막대한 계산 비용 없이도 여러 해상도에서 풍부한 이미지 표현을 유지할 수 있습니다. 다양한 해상도에서 풍부한 이미지 표현을 유지할 수 있습니다.
실제 시나리오에서 물체는 카메라와의 거리에 따라 매우 다양한 크기로 나타납니다. A 표준 분류기는 프레임을 가득 채우고 있는 자동차는 쉽게 발견할 수 있지만 배경에 있는 보행자는 detect 못할 수 있습니다. FPN 은 피라미드의 여러 레벨에 예측 작업을 할당하여 이 문제를 해결합니다. 큰 물체는 저해상도 심층 피처 맵에서 저해상도 심층 피처 맵에서 감지하고, 작은 물체는 고해상도 융합 피처 맵에서 감지합니다. 이 기능은 높은 정확도를 달성하는 데 필수적입니다. 정확도 및 리콜 다양한 환경에서 FPN이 장착된 모델은 구형 단일 스케일 탐지기와 차별화됩니다.
멀티스케일 데이터를 처리할 수 있는 기능 덕분에 FPN은 다음과 같은 다양한 산업에서 필수 불가결한 존재가 되었습니다. 인공 지능(AI).
FPN이 특징 추출에 혁신을 일으켰다면, 최신 아키텍처는 이 개념을 더욱 정교하게 다듬었습니다. 주목할 만한 진화는 양방향 피처 피라미드 네트워크(BiFPN)입니다. Google Research 에서 소개한 양방향 특징 피라미드 네트워크(BiFPN)입니다. 단방향(하향식)인 단방향(하향식)으로 흐르는 표준 FPN과 달리, BiFPN은 상향식 경로를 추가하고 각 연결에 대한 특정 가중치를 학습하여 연결에 대한 특정 가중치를 학습하여 더 중요한 기능에 우선순위를 둡니다. 하지만 표준 FPN 설계와 그 변형은 여전히 다음과 같은 고성능 모델의 기반입니다. YOLO11와 같은 고성능 모델의 기반이 되며, 대부분의 경우 속도와 정확성의 균형을 효과적으로 유지합니다. 실시간 추론 작업을 위해 속도와 정확성의 균형을 효과적으로 유지합니다.
최신 라이브러리는 FPN의 복잡성을 내부적으로 처리합니다. 다음 예제는 Ultralytics YOLO 패키지를 사용하는 예시입니다. 고급 피처 피라미드 구조를 통합하여 모든 크기의 개체를 원활하게 detect .
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()