Ultralytics YOLO11이 앵커 프리 객체 감지를 어떻게 지원하고 이 모델 아키텍처가 다양한 애플리케이션에 제공하는 이점을 이해하세요.
Ultralytics YOLO11이 앵커 프리 객체 감지를 어떻게 지원하고 이 모델 아키텍처가 다양한 애플리케이션에 제공하는 이점을 이해하세요.
Vision AI 모델의 역사를 되돌아보면 이미지 또는 비디오 내에서 객체를 식별하고 위치를 파악하는 핵심 컴퓨터 비전 작업인 객체 감지 개념은 1960년대부터 존재했습니다. 그러나 오늘날 첨단 혁신에서 객체 감지가 중요한 이유는 객체 감지 기술과 모델 아키텍처가 그 이후로 발전하고 빠르게 개선되었기 때문입니다.
이전 기사에서 객체 감지의 진화와 Ultralytics YOLO 모델로 이어진 과정을 논의했습니다. 오늘은 앵커 기반 감지기에서 앵커 프리 감지기로의 도약이라는 여정에서 더 구체적인 이정표를 탐색하는 데 중점을 둘 것입니다.
앵커 기반 검출기는 이미지에서 객체의 위치를 예측하기 위해 "앵커"라고 하는 미리 정의된 상자에 의존합니다. 반면, 앵커 프리 검출기는 이러한 미리 정의된 상자를 건너뛰고 객체 위치를 직접 예측합니다.
이러한 변화가 단순하고 논리적인 변화처럼 보일 수 있지만, 실제로는 객체 감지 정확도와 효율성이 크게 향상되었습니다. 이 기사에서는 앵커 프리 감지기가 Ultralytics YOLO11과 같은 발전을 통해 컴퓨터 비전을 어떻게 재구성했는지 이해할 것입니다.
Anchor-based detectors는 이미지 내 객체 위치를 파악하는 데 도움이 되는 앵커라는 미리 정의된 상자를 사용합니다. 이러한 앵커는 이미지 위에 다양한 크기와 모양으로 배치된 상자 격자라고 생각하면 됩니다. 모델은 이러한 상자를 조정하여 감지된 객체에 맞춥니다. 예를 들어 모델이 자동차를 식별하면 앵커 상자를 수정하여 자동차의 위치와 크기에 더 정확하게 맞춥니다.
각 앵커는 이미지 내에서 가능한 객체와 연결되어 있으며, 학습 중에 모델은 앵커 박스를 조정하여 객체의 위치, 크기 및 종횡비에 더 잘 맞추는 방법을 학습합니다. 이를 통해 모델은 다양한 스케일과 방향에서 객체를 감지할 수 있습니다. 그러나 올바른 앵커 박스 세트를 선택하는 데 시간이 오래 걸릴 수 있으며, 이를 미세 조정하는 과정에서 오류가 발생하기 쉽습니다.

YOLOv4와 같은 앵커 기반 감지기는 많은 애플리케이션에서 잘 작동했지만 몇 가지 단점이 있습니다. 예를 들어, 앵커 상자는 모양이나 크기가 다른 객체와 항상 잘 정렬되지 않아 모델이 작거나 불규칙한 모양의 객체를 감지하기가 더 어렵습니다. 앵커 상자 크기를 선택하고 미세 조정하는 과정도 시간이 많이 걸리고 많은 수동 작업이 필요할 수 있습니다. 이 외에도 앵커 기반 모델은 미리 정의된 상자가 이러한 더 복잡한 시나리오에 잘 적응하지 못할 수 있으므로 가려지거나 겹치는 객체를 감지하는 데 어려움을 겪는 경우가 많습니다.
앵커 프리 검출기는 2018년에 CornerNet 및 CenterNet과 같은 모델을 통해 주목을 받기 시작했으며, 미리 정의된 앵커 상자의 필요성을 없애 객체 탐지에 대한 새로운 접근 방식을 취했습니다. 다양한 크기와 모양의 앵커 상자에 의존하여 객체의 위치를 예측하는 기존 모델과 달리 앵커 프리 모델은 객체의 위치를 직접 예측합니다. 중심과 같은 객체의 주요 지점이나 특징에 집중하여 탐지 프로세스를 단순화하고 더 빠르고 정확하게 만듭니다.
다음은 앵커 프리 모델의 일반적인 작동 방식입니다.

앵커 프리 모델은 앵커 박스에 의존하지 않기 때문에 디자인이 더 간단합니다. 즉, 계산 효율성이 더 높습니다. 여러 앵커 박스를 처리할 필요가 없으므로 자율 주행 및 비디오 감시와 같은 실시간 애플리케이션에서 중요한 이점인 객체를 더 빠르게 감지할 수 있습니다.
앵커 프리 모델은 작고 불규칙하거나 가려진 객체를 처리하는 데 훨씬 더 효과적입니다. 앵커 상자를 맞추려고 하기보다는 주요 지점 탐지에 집중하기 때문에 훨씬 더 유연합니다. 이를 통해 앵커 기반 모델이 실패할 수 있는 복잡하거나 복잡한 환경에서 객체를 정확하게 탐지할 수 있습니다.
원래 속도와 효율성을 위해 설계된 YOLO 모델은 앵커 기반 방법에서 앵커 프리 탐지로 점진적으로 전환되어 YOLO11과 같은 모델이 더 빠르고 유연하며 광범위한 실시간 애플리케이션에 더 적합하게 되었습니다.
다음은 앵커 프리 디자인이 다양한 YOLO 버전에서 어떻게 발전해 왔는지 간략하게 보여줍니다.

YOLO11을 사용한 앵커 프리 감지의 이점의 좋은 예는 자율 주행 차량에 있습니다. 자율 주행 자동차에서는 보행자, 다른 차량 및 장애물을 빠르고 정확하게 감지하는 것이 안전에 매우 중요합니다. YOLO11의 앵커 프리 접근 방식은 미리 정의된 앵커 상자에 의존하는 대신 보행자 중심이나 다른 차량의 경계와 같은 객체의 키 포인트를 직접 예측하여 감지 프로세스를 단순화합니다.

YOLO11은 각 객체에 앵커 그리드를 조정하거나 맞출 필요가 없으므로 계산 비용이 많이 들고 느릴 수 있습니다. 대신 주요 특징에 집중하여 더 빠르고 효율적입니다. 예를 들어 보행자가 차량 경로로 들어오면 YOLO11은 사람이 부분적으로 숨겨져 있거나 움직이더라도 주요 지점을 정확히 찾아 위치를 빠르게 식별할 수 있습니다. 앵커 상자 없이 다양한 모양과 크기에 적응할 수 있는 기능을 통해 YOLO11은 객체를 더 안정적이고 더 빠른 속도로 감지할 수 있으며, 이는 자율 주행 시스템에서 실시간 의사 결정에 매우 중요합니다.
YOLO11의 앵커 프리 기능이 실제로 돋보이는 다른 응용 분야는 다음과 같습니다.
YOLO11과 같은 앵커 프리 모델은 많은 이점을 제공하지만, 특정 제한 사항이 있습니다. 주요 실질적인 고려 사항 중 하나는 앵커 프리 모델조차도 가려짐이나 고도로 겹치는 객체에 어려움을 겪을 수 있다는 것입니다. 그 이유는 컴퓨터 비전이 인간의 시각을 복제하는 것을 목표로 하고 있으며, 우리가 때때로 가려진 객체를 식별하는 데 어려움을 겪는 것처럼 AI 모델도 유사한 문제에 직면할 수 있기 때문입니다.
또 다른 흥미로운 요소는 모델 예측 처리와 관련이 있습니다. 앵커 프리 모델의 아키텍처는 앵커 기반 모델보다 간단하지만 특정 경우에는 추가 개선이 필요합니다. 예를 들어, 겹치는 예측을 정리하거나 혼잡한 장면에서 정확도를 향상시키기 위해 NMS(Non-Maximum Suppression)와 같은 후처리 기술이 필요할 수 있습니다.
앵커 기반에서 앵커 프리 감지로의 전환은 객체 감지에서 중요한 발전이었습니다. YOLO11과 같은 앵커 프리 모델을 사용하면 프로세스가 단순화되어 정확도와 속도가 모두 향상됩니다.
YOLO11을 통해 앵커 프리 객체 감지가 자율 주행 자동차, 비디오 감시, 의료 영상과 같이 빠르고 정확한 감지가 중요한 실시간 애플리케이션에서 얼마나 뛰어난 성능을 보이는지 확인했습니다. 이 접근 방식을 통해 YOLO11은 다양한 객체 크기와 복잡한 장면에 더 쉽게 적응하여 다양한 환경에서 더 나은 성능을 제공할 수 있습니다.
컴퓨터 비전이 계속 발전함에 따라 객체 감지는 더욱 빠르고 유연하며 효율적으로 변모할 것입니다.
GitHub 저장소를 살펴보고 활발한 커뮤니티에 참여하여 모든 AI 관련 소식을 받아보세요. Vision AI가 제조업 및 농업과 같은 분야에 어떤 영향을 미치는지 확인해 보세요.


.webp)