YOLO11 활용한 소형 물체 탐지 연구

비전 AI가 통합된 드론은 지상 수백 미터 상공을 비행하면서도 영상 피드에서 단 몇 픽셀로만 보이는 detect 합니다. 실제로 로봇공학, 감시, 원격 감지 같은 응용 분야에서는 시스템이 이미지 내에서 매우 작은 물체를 식별해야 하는 것이 흔한 과제입니다.

그러나 기존의 객체 탐지 모델들은 이를 수행하는 데 어려움을 겪을 수 있습니다. 이미지와 영상 속 작은 객체들은 매우 제한된 시각적 정보를 나타냅니다. 간단히 말해, 모델이 이를 관찰할 때 학습하거나 인식할 만한 세부 사항이 많지 않습니다.

이러한 모델들은 일반적으로 컨볼루션 신경망(CNN) 기반 아키텍처를 활용합니다. 이미지는 네트워크의 여러 계층을 통과하며 변환되어, 원시 픽셀 대신 관련 패턴을 강조하는 특징 맵 또는 단순화된 표현으로 전환됩니다.

이미지가 네트워크를 더 깊이 통과할수록 이러한 특징 맵은 점점 작아집니다. 이는 계산 속도를 높이지만, 동시에 미세한 세부 사항이 사라질 수 있음을 의미합니다.

작은 물체의 경우, 이러한 세부 사항이 매우 중요합니다. 이러한 세부 사항이 사라지면 컴퓨터 비전 모델이 물체를 감지하는 데 어려움을 겪을 수 있으며, 이는 덜 정확하거나 일관성 없는 바운딩 박스로 이어질 수 있습니다.

실시간 종단 간 컴퓨터 비전 시스템은 이 문제를 더욱 복잡하게 만듭니다. 고해상도 이미지는 세부 사항을 보존하는 데 도움이 되지만, 추론 속도를 늦추고 더 많은 GPU 요구합니다. 낮은 해상도는 더 빠르게 실행되지만, 작은 물체는 detect 훨씬 더 어려워집니다.

속도, 정확도, 하드웨어 한계 사이의 지속적인 균형 잡기 작업이 됩니다. 최근 기술 발전 덕분에 컴퓨터 비전 모델인 Ultralytics YOLO11 과 곧 출시될 Ultralytics 같은 컴퓨터 비전 모델은 이러한 절충점을 보다 효과적으로 관리하도록 설계되었습니다.

그림 1. 항공 사진에서 detect 물체 detect YOLO11 활용 (출처)

‍

이 글에서는 작은 물체 탐지가 어려운 이유와 YOLO11 이를 어떻게 쉽게 YOLO11 살펴보겠습니다. 시작해 보죠!

소형 물체 탐지란 무엇이며 왜 중요한가?

소형 물체 탐지는 컴퓨터 비전(인공지능의 한 분야)에서 매우 작은 영역을 차지하는 물체를 식별하고 위치를 파악하는 작업이다. 이러한 물체는 디지털 이미지의 최소 단위인 제한된 수의 픽셀로 표현되는 경우가 많다. 이로 인해 더 크고 선명한 대상(일반적으로 더 많은 픽셀을 포함함) detect .

예를 들어 항공 촬영 영상 속 차량, 공장 바닥의 공구, 광각 감시 카메라에 포착된 사람들 등은 모두 이미지 내에서 작은 물체로 나타날 수 있습니다. 이들을 탐지하는 것은 중요합니다. 왜냐하면 이들은 종종 중요한 정보를 담고 있으며, 감시와 같은 많은 실제 응용 분야가 이러한 탐지에 의존하여 제대로 작동하기 때문입니다.

작은 물체를 놓칠 경우 시스템 성능과 의사 결정에 영향을 미칠 수 있습니다. 무인 항공기(UAV) 감시가 좋은 예로, 지상의 작은 움직이는 물체를 놓치면 항법이나 추적 정확도에 영향을 줄 수 있습니다.

작은 물체 탐지와 관련된 과제

초기 시스템들은 수작업으로 제작된 특징과 전통적인 컴퓨터 비전 기법을 사용했는데, 이는 복잡하거나 다양한 장면에서 어려움을 겪었습니다. 심지어 오늘날에도 딥러닝 모델이 훨씬 우수한 성능을 보이지만, 작은 대상이 이미지의 극히 일부만을 차지할 때는 여전히 탐지가 어렵습니다.

다음으로, 작은 물체를 감지할 때 다양한 실제 시나리오에서 나타나는 일반적인 문제점들을 살펴보겠습니다.

크기, 픽셀 및 정보 손실

작은 물체는 픽셀 수가 매우 적어 특징 추출과 같은 단계에서 모델이 학습할 수 있는 시각적 세부 정보의 양이 제한됩니다. 그 결과, 가장자리, 형태, 질감과 같은 패턴을 detect 어려워져 작은 물체가 배경에 녹아들 가능성이 높아집니다.

신경망의 컨볼루션 레이어를 통과하면서 이미지의 픽셀에 담긴 시각적 정보는 점차 특징 맵으로 압축됩니다. 이는 모델의 효율성을 유지하는 데 도움이 되지만, 동시에 미세한 디테일이 사라진다는 의미이기도 합니다.

‍

작은 표적의 경우, 탐지 네트워크가 작동할 기회를 얻기도 전에 중요한 단서가 사라질 수 있습니다. 이럴 때 위치 추정은 신뢰도가 떨어지며, 경계 상자가 이동하거나 겹치거나 표적 객체를 완전히 놓칠 수 있습니다.

폐색, 규모 변동성, 그리고 맥락

크기 관련 문제도 종종 가림 현상으로 인해 발생합니다. 가림 현상은 장면 내 물체, 특히 작은 물체가 다른 물체에 의해 부분적으로 가려질 때 발생합니다.

이는 대상의 가시 영역을 축소시켜 물체 탐지기가 활용할 수 있는 정보를 제한합니다. 특히 저해상도 입력과 결합될 경우, 아주 작은 가림 현상조차도 탐지 네트워크를 혼란스럽게 할 수 있습니다. 이러한 현상의 흥미로운 사례는 VisDrone과 같은 무인항공기(UAV) 데이터셋에서 확인할 수 있는데, 여기서 보행자, 자전거 또는 차량이 건물, 나무 또는 기타 움직이는 물체에 의해 부분적으로 가려질 수 있습니다.

그림 3. VisDrone 데이터셋에서 작은 물체를 보여주는 예시 (출처)

‍

마찬가지로, 스케일 변동은 동일한 물체가 거리와 카메라 위치에 따라 매우 작게 또는 상대적으로 크게 보일 때 또 다른 난이도를 가중시킵니다. 이러한 장애물에도 불구하고, 탐지 알고리즘은 정확도를 잃지 않으면서 서로 다른 스케일에서 이러한 작은 물체들을 인식해야 합니다.

탐지에는 맥락도 중요한 역할을 합니다. 예를 들어, 큰 물체는 일반적으로 유용한 시각적 단서를 제공하는 선명한 배경과 함께 나타납니다. 반면 작은 표적은 이러한 맥락 정보를 종종 결여하고 있어 패턴 인식이 더 어려워집니다.

소형 물체 탐지에서 숨겨진 측정값 문제

공통 평가 지표인 교집합 대비 전체(IoU)는 예측된 바운딩 박스가 실제 박스와 얼마나 잘 겹치는지를 측정합니다. IoU 큰 객체에는 IoU , 작은 객체에서는 그 특성이 상당히 다릅니다.

작은 물체는 몇 픽셀만 차지하므로 예측 상자의 사소한 이동조차도 비례적으로 큰 오차를 발생시키고 IoU 급격히 낮출 수 있습니다. 이는 작은 물체가 이미지에 가시적으로 존재하더라도 예측을 올바르다고 판단하는 데 사용되는 표준 IoU 충족하지 못하는 경우가 빈번함을 의미합니다.

결과적으로, 위치 추정 오류는 오탐지 또는 누락으로 분류될 가능성이 더 높아집니다. 이러한 한계로 인해 연구자들은 물체 탐지 시스템이 작고detect 평가하고 처리하는 방식을 재고하게 되었습니다.

다중 스케일 특징: 소형 실시간 물체 탐지의 핵심

연구자들이 소형 물체 탐지 성능을 개선하기 위해 노력하면서, 다양한 규모에 걸쳐 시각 정보를 보존하고 표현하는 것이 필수적이라는 점이 분명해졌다. 이러한 통찰은 최근 arXiv 연구와 IEEE 국제 학회 및 유럽 컴퓨터 비전 협회(ECCV)와 같은 장소에서 발표된 논문들에서도 반영되고 있다.

이미지가 신경망을 더 깊이 통과할수록 작은 물체는 세부 사항을 잃거나 완전히 사라질 수 있습니다. 이 때문에 YOLO11 같은 현대 컴퓨터 비전 모델들은 더 나은 특징 추출에 중점을 YOLO11 . 이제 특징 맵과 특징 피라미드 네트워크의 핵심 개념을 살펴보며 이를 더 잘 이해해 보겠습니다.

특징 맵과 스케일 표현

원격 감지 이미지와 같은 입력 이미지가 신경망에 입력되면 점차 특징 맵으로 변환됩니다. 이는 이미지의 단순화된 표현으로, 가장자리, 형태, 질감과 같은 시각적 패턴을 강조합니다.

네트워크가 깊어질수록 이러한 특징 맵은 공간적 크기가 작아집니다. 이러한 축소는 모델이 효율적으로 실행되고 고수준 정보에 집중하는 데 도움이 됩니다. 그러나 축소되고 깊은 특징 맵은 공간적 세부 정보도 감소시킵니다.

‍

큰 물체는 정확한 탐지를 위한 충분한 시각 정보를 유지하지만, 작은 표적은 단 몇 개의 네트워크 레이어만 거치더라도 중요한 세부 사항을 잃을 수 있습니다. 이런 경우 모델은 작은 물체가 존재한다는 사실 자체를 인식하는 데 어려움을 겪을 수 있습니다. 이는 딥 객체 탐지 모델에서 작은 물체가 누락되는 주요 원인 중 하나입니다.

피라미드 네트워크와 다중 스케일 학습을 특징으로 함

피처 피라미드 네트워크(FPN)는 공간적 세부 정보의 손실을 해결하기 위해 도입되었으며, 여러 계층의 정보를 결합하는 보조 모듈로 작동하여 모델이 detect 물체를 더 효과적으로 detect 수 있도록 합니다. 이 과정은 피처 집계 및 피처 융합으로도 알려져 있습니다.

얕은 레이어는 정밀한 공간적 세부 정보를 제공하며, 깊은 레이어는 의미적 맥락을 추가하여 효과적인 다중 스케일 특징 학습을 가능하게 합니다. 단순히 특징 맵을 확대하는 단순한 업샘플링과 달리, FPN은 의미 있는 정보를 보존하고 작은 물체 탐지 성능을 향상시킵니다.

현대적인 접근법은 적응형 특징 융합과 상황 인식 설계를 활용하여 이 개념을 발전시켜 소형 표적 탐지 성능을 더욱 향상시킵니다. 즉, FPN은 모델이 큰 그림과 미세한 세부 사항을 동시에 인식하도록 돕습니다. 이러한 최적화는 물체가 작을 때 특히 중요합니다.

물체 탐지 모델이 작은 물체를 처리하기 위해 어떻게 진화했는가

다음은 물체 탐지 모델이 시간이 지남에 따라 어떻게 진화하고 발전하여 매우 작은 물체를 포함해 다양한 크기의 detect 더 잘 detect 되었는지에 대한 개요입니다:

조기 탐지 방법: 초기 객체 탐지 접근법은 수동으로 설계된 특징과 고전적 이미지 처리에 기반한 규칙 기반 알고리즘에 의존했습니다. 이러한 특징들은 고정되어 있었기 때문에, 다른 이미지에서는 성능이 저하되었습니다.
기계 학습과 딥 러닝의 도입: 기계 학습과 딥 러닝의 도입은 물체 탐지 연구에 중대한 전환점을 마련했다. 사전 정의된 규칙에 의존하는 대신, 신경망은 훈련 데이터로부터 시각적 표현을 직접 학습하여 다양한 물체 크기와 장면에 걸친 적응성을 향상시켰다.
컨볼루션 신경망: 이 신경망은 이미지 속 패턴을 인식하도록 학습합니다. 각 층은 단순한 경계선과 색상에서 시작해 형태, 그리고 최종적으로 전체 객체에 이르기까지 서로 다른 세부 사항을 포착하므로 현대 컴퓨터 비전에 필수적입니다.
2단계 객체 탐지기: Girshick과 Ren이 제안한 Faster R-CNN과 같은 2단계 탐지기는 먼저 후보 영역을 생성한 후 이를 분류했습니다. 이 접근법은 작은 객체의 정확도를 향상시켰지만, 계산 비용을 증가시키고 실시간 성능을 저하시켰습니다.
단일 단계 객체 탐지기: SSD(Single-Shot Detector) 및 YOLOv3를 포함한 YOLO You Only Look Once) 계열과 같은 단일 단계 탐지기, Ultralytics YOLOv5, 그리고 이후의 Ultralytics YOLOv8는 단일 패스로 검출을 수행합니다. 이 설계는 경쟁력 있는 정확도를 유지하면서 추론 속도를 크게 향상시킵니다.
최신 첨단 모델: 최신 객체 탐지 모델은 실시간 성능과 에지 배포에 더욱 중점을 둡니다. Ultralytics YOLO11 출시 예정인 Ultralytics 같은 최근 Ultralytics YOLO 높은 정확도와 낮은 지연 시간 추론을 균형 있게 설계되어, 제한된 연산 능력을 가진 장치에서도 소형 대상물을 포함한 모든 크기의 객체를 탐지하는 데 적합합니다.

작은 물체 탐지 사용 사례를 YOLO11 활용

이제 소형 물체 탐지 방식에 대한 이해가 깊어졌으니, YOLO11 적용할 YOLO11 있는 실제 사례 몇 가지를 살펴보겠습니다.

무인항공기 및 항공 촬영

번화한 도시 거리 위를 높이 날아가는 드론을 상상해 보라. 그 높이에서 보면 자동차, 자전거, 심지어 사람들도 화면 위의 몇 픽셀로 축소되어 보인다.

무인항공기(UAV) 및 항공 촬영 모듈은 종종 이와 같은 장면을 포착하는데, 관심 대상이 작고 복잡한 배경에 둘러싸여 있어 컴퓨터 비전 모델이 이를 detect 어렵게 만듭니다.

이러한 유형의 시나리오에서는 YOLO11 이상적인 모델 선택이 될 YOLO11 . 예를 들어, YOLO11 같은 모델을 탑재한 드론은 교통 상황을 실시간으로 모니터링하며, 장면을 이동하는 차량, 자전거 이용자, 보행자를 감지할 YOLO11 . 각 물체가 이미지의 작은 부분만을 차지하는 경우에도 가능합니다. 이는 교통 관리, 공공 안전 또는 도시 계획과 같은 응용 분야에서 더 빠른 의사 결정과 더 정확한 통찰력을 가능하게 합니다.

로봇 공학 및 자동화

로봇은 정확성과 타이밍이 중요한 환경에서 자주 사용됩니다. 창고, 공장, 농장 같은 환경에서는 조립 라인의 부품, 포장지의 라벨, 밭의 작은 식물 싹과 같이 아주 작은 물체를 인식하고 신속하게 대응해야 할 수 있습니다.

이 크기의 물체를 감지하는 것은 복잡할 수 있습니다. 특히 카메라 영상에서 몇 픽셀로만 나타나거나 다른 물체에 부분적으로 가려진 경우 더욱 그렇습니다. 이러한 작은 세부 사항을 놓치면 자동화 속도가 느려지거나 로봇의 작업 완료 능력에 영향을 미칠 수 있습니다.

YOLO11 이러한 상황에서 차이를 만들 YOLO11 . 향상된 특징 추출과 빠른 추론으로 로봇이 실시간으로 detect 물체를 detect 즉시 조치를 취할 수 있게 합니다.

YOLO11 인스턴스 YOLO11 로봇이 일반적인 바운딩 박스 위치만 파악하는 것이 아니라 물체 경계와 정확한 집기 지점을 더 정밀하게 이해할 수 있도록 돕습니다. 예를 들어, YOLO11 통합된 로봇 팔은 컨베이어 벨트 위의 작은 부품들을 YOLO11 정확한 segment 후, 부품이 도달 범위를 벗어나기 전에 집어 올릴 YOLO11 시스템의 효율성과 신뢰성을 유지하는 데 기여합니다.

YOLO11 소형 물체 탐지에 YOLO11 이유는 무엇인가요?

오늘날 수많은 컴퓨터 비전 모델이 존재하는 가운데, Ultralytics YOLO11 무엇으로YOLO11 궁금하실 수 있습니다.

다음은 초소형 물체 감지가 필요한 애플리케이션에 Ultralytics YOLO11 탁월한YOLO11 몇 가지 이유입니다:

더 나은 특징 추출: YOLO11 개선된 백본 및 넥 아키텍처를 YOLO11 특징 추출을 강화함으로써 더 정밀한 객체 탐지가 가능해집니다.
생태계 및 사용 편의성: Ultralytics Python YOLO11 같은 모델을 로드, 훈련, 검증 및 배포하기 위한 내장 함수를 제공하는 라이브러리입니다. 이러한 워크플로는 몇 줄의 코드만으로 구현 가능하므로, 팀은 소형 객체 탐지를 위한 모델을 신속하게 실험하고 미세 조정할 수 있습니다.
엣지 배포에 최적화: YOLO11 NVIDIA , Raspberry Pi, 산업용 카메라 시스템과 같은 엣지 디바이스에서 효율적으로 YOLO11 . 간단히 말해, 디바이스에서 직접 실시간 비전 AI 작업을 가능하게 합니다.

YOLO11 작은 물체를 탐지할 때 활용할 수 있는 실용적인 전략

YOLO11 같은 모델을 사용하는 것 외에도, 주석 데이터 준비 방식, 전체 데이터셋, 그리고 모델 훈련 절차는 탐지 성능에 상당한 차이를 만들 수 있습니다.

주목해야 할 사항에 대한 간략한 개요는 다음과 같습니다:

적절한 데이터 증강: 스케일링이나 크롭핑과 같은 가벼운 데이터 증강은 모델이 새로운 이미지로 일반화하는 데 도움이 될 수 있습니다. 그러나 과도한 대규모 증강은 작은 객체를 왜곡하거나 제거하여 모델이 학습하기 어렵게 만들 수 있습니다.
실패 사례 분석: 모델이 물체를 놓치거나 잘못 식별하는 지점을 분석하면 기준점을 설정하고, 문제가 데이터셋에서 비롯되었는지, 특징 추출 과정에서 정보가 손실되었는지, 아니면 훈련 설정을 조정해야 하는지 파악하는 데 도움이 됩니다.
데이터셋 구성: 모델이 의미 있는 패턴을 학습할 수 있도록 작은 물체의 충분한 예시가 포함되어야 하며, 훈련 과정에서 큰 물체가 작은 물체를 압도하지 않도록 균형을 유지해야 합니다.

주요 내용

작은 물체 탐지는 이미지가 컴퓨터 비전 모델을 통과할 때 세부 정보가 손실되기 때문에 어렵습니다. YOLO11 이러한 세부 정보 보존 방식을 YOLO11 실시간 성능을 저하시키지 않으면서도 작은 물체 탐지의 신뢰성을 높입니다. 이러한 균형 덕분에 YOLO11 실제 환경에서 정확하고 효율적인 탐지를 YOLO11 .

점점 더 커지는 커뮤니티에 참여하세요! AI에 대해 자세히 알아보려면 GitHub 저장소를 탐색해 보세요. 솔루션 페이지에서 리테일 분야의 컴퓨터 비전과 자동차 산업의 AI와 같은 혁신 기술을 만나보세요. 오늘 바로 컴퓨터 비전으로 개발을 시작하려면 라이선스 옵션을 확인해 보세요.

Ultralytics YOLO11을 활용한 소형 물체 탐지 연구