앵커 박스가 어떻게 자율 주행 및 소매업에 적용되어 앵커 기반 객체 감지, 분류, 회귀 및 NMS 지원하는지 알아보세요.
앵커 박스는 많은 객체 감지 모델의 아키텍처에서 기본 개념으로 사용되며 객체 감지 모델의 아키텍처에서 기본 개념으로 사용되며, 객체의 위치를 예측하기 위해 미리 정의된 객체의 위치와 크기를 예측하기 위한 참조 역할을 합니다. 이미지에서 임의의 크기의 물체를 처음부터 스캔하는 대신 이미지를 처음부터 스캔하는 대신, 이 모델은 특정 높이와 너비로 정의된 이러한 고정된 모양을 시작점으로 사용합니다, 또는 선행점으로 사용합니다. 이 접근 방식은 절대 좌표 예측이라는 까다로운 작업을 보다 관리하기 쉬운 규칙으로 변환하여 학습 프로세스를 간소화합니다. 예측이라는 어려운 작업을 관리하기 쉬운 회귀 문제로 변환하여 학습 프로세스를 간소화합니다. 템플릿을 조정하거나 "오프셋"하는 방법을 학습합니다. 이 기술은 다음과 같은 인기 있는 아키텍처의 성공에 중추적인 역할을 해왔습니다. 더 빠른 R-CNN 제품군 및 초기 단일 단계 검출기.
앵커 박스의 메커니즘은 입력 이미지를 촘촘한 그리드 중앙으로 타일링하는 것입니다. 각 그리드 셀에서 다양한 가로 세로 비율의 여러 앵커 박스와 스케일을 가진 여러 개의 앵커 박스가 생성되어 키가 큰 보행자나 넓은 차량과 같이 다양한 모양의 물체를 수용합니다. 모델 훈련 단계에서 모델 훈련 단계에서 시스템은 이러한 앵커를 실제 오브젝트에 라는 메트릭을 사용하여 이러한 앵커를 실제 오브젝트와 일치시킵니다. 교차점 오버 유니온(IoU)이라는 메트릭을 사용하여 이러한 앵커를 실제 오브젝트와 일치시킵니다. 앵커 가 대상 객체와 크게 겹치면 양성 샘플로 레이블이 지정됩니다.
탐지기의 백본은 이미지에서 특징을 추출합니다, 탐지 헤드가 각 양성 앵커에 대해 두 가지 병렬 작업을 수행하는 데 사용합니다:
동일한 오브젝트에 대한 중복 예측을 처리하기 위해 다음과 같은 후처리 단계가 필요합니다. 비 최대 억제(NMS) 필터는 를 통해 중복된 상자를 걸러내고 신뢰도가 가장 높은 상자만 유지합니다. 다음과 같은 프레임워크 PyTorch 및 TensorFlow 은 이러한 복잡한 연산을 효율적으로 구현하는 데 필요한 계산 도구를 복잡한 연산을 효율적으로 구현하는 데 필요한 계산 도구를 제공합니다.
앵커 박스를 이해하려면 다음과 같은 유사한 용어와 구별해야 합니다. 컴퓨터 비전(CV).
앵커 박스의 구조화된 특성은 물체 모양이 일관되고 예측 가능한 환경에서 특히 효과적입니다. 특히 효과적입니다.
YOLO11 같은 최신 모델은 앵커가 없는 반면, YOLOv5 같은 이전 버전은 앵커 박스를 사용합니다. 앵커 박스
ultralytics 패키지는 이러한 복잡성을 추상화하여 사용자가 수동으로 앵커를 설정하지 않고도
추론을 실행할 수 있습니다. 다음 예제는 객체를 detect 위해 사전 학습된 모델을 로드하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
이러한 시스템의 수학적 기초에 관심이 있는 분들을 위해 다음과 같은 교육 플랫폼이 있습니다. Coursera 및 DeepLearning.AI와 같은 교육 플랫폼에서 심층적인 강좌를 제공합니다. 심층 강좌를 제공합니다.