Ultralytics YOLO11을 이용한 소형 객체 탐지 탐구
Ultralytics YOLO11이 감시 및 로봇 공학과 같은 실제 애플리케이션 전반에서 어떻게 빠르고 정확한 소형 객체 탐지를 제공하는지 알아보십시오.

비전 AI가 탑재된 드론은 지상 수백 미터 상공을 비행하면서도 영상 피드에서 단 몇 픽셀로만 보이는 사람을 탐지해야 할 때가 있습니다. 사실 이는 로봇 공학, 감시, 원격 탐사 등 시스템이 이미지 내의 매우 작은 객체를 식별해야 하는 애플리케이션에서 흔히 발생하는 과제입니다.
하지만 기존의 객체 탐지 모델은 이를 수행하는 데 어려움을 겪을 수 있습니다. 이미지와 영상 속의 소형 객체는 매우 제한적인 시각 정보를 제공합니다. 간단히 말해, 모델이 객체를 바라볼 때 학습하거나 인식할 수 있는 상세 정보가 많지 않기 때문입니다.
내부적으로 이러한 모델들은 일반적으로 컨볼루션 신경망(CNN) 기반 아키텍처에 의존합니다. 이미지는 네트워크의 각 층을 통과하며 특징 맵이나 원본 픽셀 대신 관련 패턴을 강조하는 단순화된 표현으로 변환됩니다.
이미지가 네트워크 깊숙이 이동함에 따라 이러한 특징 맵의 크기는 작아집니다. 이는 연산을 더 빠르게 만들지만, 동시에 세밀한 디테일이 사라질 수 있음을 의미합니다.
아주 작은 객체의 경우 이러한 세부 정보가 결정적입니다. 일단 세부 정보가 사라지면 컴퓨터 비전 모델은 객체 탐지에 어려움을 겪게 되며, 이는 더 부정확하거나 일관되지 않은 BBox로 이어질 수 있습니다.
실시간 종단간(End-to-end) 컴퓨터 비전 시스템은 이를 더욱 까다롭게 만듭니다. 고해상도 이미지는 디테일을 보존하는 데 도움이 되지만, 추론 속도를 늦추고 더 많은 GPU 전력을 요구합니다. 저해상도는 더 빠르게 실행되지만, 소형 객체는 탐지하기가 더욱 어려워집니다.
이는 속도, 정확도, 하드웨어 한계 사이의 끊임없는 균형 잡기입니다. 최근의 기술 발전 덕분에 Ultralytics YOLO11 및 곧 출시될 Ultralytics YOLO26과 같은 컴퓨터 비전 모델은 이러한 트레이드오프를 더욱 효과적으로 관리하도록 설계되었습니다.

그림 1. 항공 이미지에서 소형 객체를 탐지하기 위해 YOLO11 사용 (출처)
본 글에서는 소형 객체 탐지가 어려운 이유와 YOLO11이 이를 어떻게 쉽게 만들 수 있는지 알아봅니다. 바로 시작해 보겠습니다!
Link to this section소형 객체 탐지란 무엇이며 왜 중요한가요?#
소형 객체 탐지는 AI의 한 분야인 컴퓨터 비전의 작업으로, 이미지의 매우 작은 부분을 차지하는 객체를 식별하고 위치를 파악하는 데 집중합니다. 이러한 객체는 종종 디지털 이미지의 최소 단위인 소수의 픽셀로 이미지 내에 표현됩니다. 이로 인해 더 크고 명확한 대상(종종 더 많은 픽셀을 포함함)보다 탐지하기가 더 어렵습니다.
예를 들어, 항공 이미지의 차량, 공장 바닥의 도구, 광각 감시 카메라에 찍힌 사람 등은 모두 이미지 내에서 작은 객체로 나타날 수 있습니다. 이들을 탐지하는 것은 종종 중요한 정보를 담고 있으며 감시와 같은 많은 실제 애플리케이션이 올바르게 작동하기 위해 이러한 탐지에 의존하기 때문에 중요합니다.
소형 객체를 놓치게 되면 시스템 성능과 의사결정에 영향을 줄 수 있습니다. 무인 항공기(UAV) 모니터링이 좋은 예인데, 지상의 작은 움직이는 객체를 놓치면 내비게이션이나 추적 정확도에 영향을 줄 수 있습니다.
Link to this section소형 객체 탐지 관련 과제#
이전 시스템은 수동으로 설계된 특징과 전통적인 컴퓨터 비전 방법을 사용했으며, 복잡하거나 다양한 장면에서 문제를 겪었습니다. 오늘날 딥러닝 모델이 훨씬 더 나은 성능을 보임에도 불구하고, 소형 객체가 이미지의 아주 작은 부분을 차지할 때는 여전히 탐지가 어렵습니다.
다음으로, 소형 객체를 탐지할 때 다양한 실제 시나리오에서 나타나는 몇 가지 일반적인 과제를 살펴보겠습니다.
Link to this section크기, 픽셀 및 정보 손실#
소형 객체는 픽셀 수가 매우 적으며, 이는 특징 추출과 같은 단계에서 모델이 학습할 수 있는 시각적 디테일의 양을 제한합니다. 결과적으로 가장자리, 모양, 질감과 같은 패턴을 탐지하기가 더 어려워져 소형 객체가 배경에 섞일 가능성이 커집니다.
이미지가 신경망의 컨볼루션 층을 통과할 때, 픽셀 내의 시각 정보는 점진적으로 특징 맵으로 압축됩니다. 이는 모델의 효율성을 유지하는 데 도움이 되지만, 동시에 세밀한 디테일이 사라짐을 의미합니다.

그림 2. 특징 맵은 이미지의 시각적 패턴을 나타냅니다 (출처)
소형 대상의 경우, 탐지 네트워크가 작동하기 전에 중요한 단서가 사라질 수 있습니다. 그런 일이 발생하면 위치 추정 신뢰도가 낮아지고, BBox가 어긋나거나, 겹치거나, 대상 객체를 완전히 놓칠 수 있습니다.
Link to this section폐색(Occlusion), 스케일 편차 및 맥락#
크기 관련 문제는 폐색에 의해서도 종종 발생합니다. 폐색은 특히 작은 객체들이 장면 내의 다른 객체에 의해 부분적으로 가려질 때 발생합니다.
이는 대상의 가시 영역을 줄여 객체 탐지기가 사용할 수 있는 정보를 제한합니다. 작은 폐색조차도 특히 저해상도 입력과 결합되면 탐지 네트워크를 혼란스럽게 할 수 있습니다. 이에 대한 흥미로운 예는 VisDrone과 같은 UAV 데이터셋에서 볼 수 있는데, 보행자, 자전거, 차량이 건물, 나무 또는 다른 움직이는 객체에 의해 부분적으로 가려질 수 있습니다.

그림 3. 소형 객체를 보여주는 VisDrone 데이터셋의 예 (출처)
마찬가지로, 스케일 편차는 거리와 카메라 위치에 따라 동일한 객체가 매우 작게 또는 비교적 크게 나타날 때 또 다른 난관을 제공합니다. 이러한 장애물에도 불구하고 탐지 알고리즘은 정확도를 잃지 않으면서 다양한 스케일에서 이러한 소형 객체를 인식해야 합니다.
맥락(Context) 또한 탐지에 중요한 역할을 합니다. 예를 들어, 큰 객체는 보통 도움이 되는 시각적 단서를 제공하는 명확한 주변 환경과 함께 나타납니다. 반면, 소형 대상은 이러한 맥락 정보가 부족한 경우가 많아 패턴 인식이 더 어렵습니다.
Link to this section소형 객체 탐지에서의 숨겨진 지표 문제#
IoU(Intersection over Union)와 같은 일반적인 평가 지표는 예측된 BBox가 정답(Ground-truth) 상자와 얼마나 잘 겹치는지 측정합니다. IoU는 큰 객체에는 잘 작동하지만, 작은 객체에 대해서는 동작이 상당히 다릅니다.
소형 객체는 몇 픽셀만 차지하므로 예측된 상자에 작은 변화만 있어도 큰 비례 오차가 발생하여 IoU 점수가 급격히 낮아질 수 있습니다. 이는 객체가 이미지에서 보임에도 불구하고, 예측을 올바른 것으로 간주하는 표준 IoU 임계값을 충족하지 못하는 경우가 많음을 의미합니다.
결과적으로 위치 추정 오차는 오탐(False Positive)이나 미탐(False Negative)으로 분류될 가능성이 더 높습니다. 이러한 한계로 인해 연구자들은 객체 탐지 시스템이 작고 탐지하기 어려운 대상을 어떻게 평가하고 처리해야 할지 재고하게 되었습니다.
Link to this section다중 스케일 특징: 실시간 소형 객체 탐지의 핵심#
연구자들이 소형 객체 탐지를 개선하기 위해 노력함에 따라, 여러 스케일에 걸쳐 시각 정보를 보존하고 표현하는 것이 필수적임이 분명해졌습니다. 이러한 통찰은 최근의 arXiv 연구와 IEEE 국제 컨퍼런스 및 유럽 컴퓨터 비전 학회(ECCV)와 같은 곳에서 발표된 논문들에 반영되어 있습니다.
이미지가 신경망 깊숙이 이동함에 따라 소형 객체는 디테일을 잃거나 완전히 사라질 수 있기 때문에, YOLO11과 같은 현대 컴퓨터 비전 모델은 더 나은 특징 추출에 큰 중점을 둡니다. 다음으로, 특징 맵과 특징 피라미드 네트워크(FPN)의 핵심 개념을 살펴보고 더 잘 이해해 보겠습니다.
Link to this section특징 맵과 스케일 표현#
원격 탐사 이미지와 같은 입력 이미지가 신경망에 들어오면 점진적으로 특징 맵으로 변환됩니다. 이는 가장자리, 모양, 질감과 같은 시각적 패턴을 강조하는 이미지의 단순화된 표현입니다.
네트워크가 깊어질수록 이러한 특징 맵의 공간적 크기는 작아집니다. 이러한 축소는 모델이 효율적으로 실행되고 고수준 정보에 집중하도록 돕습니다. 그러나 축소되고 깊어진 특징 맵은 공간적 디테일 또한 감소시킵니다.

그림 4. 특징 추출은 소형 객체 탐지의 핵심입니다. (출처)
큰 객체는 정확한 탐지를 위해 충분한 시각 정보를 유지하지만, 소형 대상은 단 몇 개의 네트워크 층 이후에 중요한 디테일을 잃을 수 있습니다. 이런 일이 발생하면 모델은 소형 객체가 존재하는지조차 인식하는 데 어려움을 겪을 수 있습니다. 이것이 딥 객체 탐지 모델에서 소형 객체를 놓치게 되는 주요 원인 중 하나입니다.
Link to this section특징 피라미드 네트워크와 다중 스케일 학습#
FPN으로도 불리는 특징 피라미드 네트워크는 공간적 디테일 손실을 해결하기 위해 도입되었으며, 모델이 소형 객체를 더 효과적으로 탐지할 수 있도록 여러 층의 정보를 결합하는 지원 모듈 역할을 합니다. 이 과정은 특징 통합(Aggregation) 및 특징 융합(Fusion)으로도 알려져 있습니다.
얕은 층은 미세한 공간 디테일을 제공하고, 더 깊은 층은 의미론적 맥락을 추가하여 효과적인 다중 스케일 특징 학습을 가능하게 합니다. 특징 맵을 단순히 확대하는 단순한 업샘플링과 달리, FPN은 의미 있는 정보를 보존하고 소형 객체 탐지를 개선합니다.
현대적인 접근 방식은 적응형 특징 융합과 맥락 인식 설계를 사용하여 이 아이디어를 기반으로 소형 대상 탐지를 더욱 강화합니다. 다시 말해, FPN은 모델이 큰 그림과 작은 디테일을 동시에 볼 수 있도록 돕습니다. 이러한 최적화는 객체가 작을 때 필수적입니다.
Link to this section객체 탐지 모델이 소형 객체를 처리하기 위해 진화한 방식#
객체 탐지 모델이 시간이 지남에 따라 아주 작은 객체를 포함한 다양한 크기의 객체를 더 잘 탐지하기 위해 어떻게 진화하고 발전했는지에 대한 요약입니다:
- 초기 탐지 방법: 초기 객체 탐지 접근 방식은 고전적인 이미지 처리에 기반한 수동으로 설계된 특징과 규칙 기반 알고리즘에 의존했습니다. 이러한 특징들은 고정되어 있었기 때문에 이미지에 따라 성능이 저하되었습니다.
- 머신 러닝 및 딥러닝 도입: 머신 러닝과 딥러닝의 채택은 객체 탐지 연구의 주요 전환점이 되었습니다. 미리 정의된 규칙에 의존하는 대신 신경망이 학습 데이터로부터 직접 시각적 표현을 학습하여 다양한 객체 크기와 장면 전반에서 적응력을 향상시켰습니다.
- 컨볼루션 신경망: 이 신경망은 이미지의 패턴을 보는 법을 학습합니다. 각 층은 단순한 가장자리와 색상부터 시작하여 모양, 결국에는 전체 객체에 이르기까지 서로 다른 디테일을 포착하며, 이는 현대 컴퓨터 비전에 필수적입니다.
- 2단계(Two-stage) 객체 탐지기: Girshick과 Ren이 도입한 Faster R-CNN과 같은 2단계 탐지기는 먼저 후보 영역을 생성한 후 이를 분류했습니다. 이 접근 방식은 소형 객체의 정확도를 향상시켰지만 계산 비용을 증가시키고 실시간 성능을 저하시켰습니다.
- 1단계(One-stage) 객체 탐지기: SSD(Single-Shot Detector) 및 Ultralytics YOLOv5, 나아가 Ultralytics YOLOv8을 포함한 YOLO(You Only Look Once) 제품군과 같은 1단계 탐지기는 단일 패스로 탐지를 수행합니다. 이 설계는 경쟁력 있는 정확도를 유지하면서 추론 속도를 크게 향상시킵니다.
- 최신 SOTA(State-of-the-art) 모델: 최신 객체 탐지 모델은 실시간 성능과 엣지 배포에 더 중점을 둡니다. Ultralytics YOLO11 및 곧 출시될 Ultralytics YOLO26과 같은 최근 Ultralytics YOLO 모델 릴리스는 높은 정확도와 낮은 지연 시간의 추론 간의 균형을 맞추도록 설계되어, 제한된 컴퓨팅 파워를 가진 기기에서도 소형 대상을 포함한 모든 크기의 객체를 탐지하는 데 적합합니다.
Link to this section소형 객체 탐지 사례를 위한 YOLO11 사용#
이제 소형 객체 탐지가 어떻게 작동하는지 더 잘 이해했으니, YOLO11을 적용할 수 있는 몇 가지 실제 애플리케이션을 살펴보겠습니다.
Link to this sectionUAV 및 항공 영상#
분주한 도시 거리 위를 높이 날고 있는 드론을 상상해 보십시오. 그 높이에서는 자동차, 자전거, 심지어 사람도 화면에서 단 몇 픽셀로 작아집니다.
UAV 및 항공 영상 모듈은 종종 이와 같이 관심 객체가 아주 작고 복잡한 배경으로 둘러싸여 있어 컴퓨터 비전 모델이 탐지하기 어려운 장면을 캡처합니다.
이러한 유형의 시나리오에서 YOLO11은 이상적인 모델 선택이 될 수 있습니다. 예를 들어, YOLO11과 같은 모델을 탑재한 드론은 실시간으로 교통 상황을 모니터링하여 각 객체가 이미지의 작은 부분만을 차지하더라도 장면을 이동하는 차량, 자전거 이용자, 보행자를 탐지할 수 있습니다. 이는 교통 관리, 공공 안전, 도시 계획과 같은 애플리케이션에서 더 빠른 의사결정과 더 정확한 통찰력을 가능하게 합니다.
Link to this section로봇 공학 및 자동화#
로봇은 정확도와 타이밍이 중요한 환경에서 자주 사용됩니다. 창고, 공장, 농장과 같은 설정에서 로봇은 조립 라인의 부품, 패키지의 라벨, 들판의 작은 식물 싹과 같은 매우 작은 객체를 인식하고 빠르게 반응해야 할 수 있습니다.
이러한 크기의 객체를 탐지하는 것은 카메라 피드에서 단 몇 픽셀로만 보이거나 다른 객체에 의해 부분적으로 가려질 때 특히 복잡할 수 있습니다. 이러한 작은 디테일을 놓치면 자동화 속도가 느려지거나 로봇이 작업을 완료하는 능력에 영향을 줄 수 있습니다.
YOLO11은 이러한 상황에서 차이를 만들 수 있습니다. 개선된 특징 추출과 빠른 추론을 통해 로봇이 실시간으로 소형 객체를 탐지하고 즉시 행동을 취할 수 있게 합니다.
또한 YOLO11은 인스턴스 세그멘테이션을 지원하여 로봇이 일반적인 BBox만 찾는 것보다 객체의 경계와 파지 지점을 더 정확하게 이해하도록 도울 수 있습니다. 예를 들어, YOLO11이 통합된 로봇 팔은 컨베이어 벨트 위의 작은 부품을 발견하고, 정확한 모양을 세그멘테이션하고, 범위를 벗어나기 전에 집어 올려 시스템의 효율성과 신뢰성을 유지하도록 도울 수 있습니다.
Link to this sectionYOLO11이 소형 객체 탐지에 효과적인 이유#
오늘날 사용 가능한 수많은 컴퓨터 비전 모델들 사이에서, 왜 Ultralytics YOLO11이 돋보이는지 궁금하실 것입니다.
소형 객체를 탐지해야 하는 애플리케이션에 Ultralytics YOLO11이 훌륭한 선택인 몇 가지 이유는 다음과 같습니다:
- 더 나은 특징 추출: YOLO11은 향상된 백본 및 넥 아키텍처를 사용하여 특징 추출을 강화함으로써 더 정확한 객체 탐지를 가능하게 합니다.
- 생태계 및 사용 편의성: Ultralytics Python 패키지는 YOLO11과 같은 모델을 로드, 학습, 검증 및 배포하기 위한 내장 함수를 제공하는 라이브러리입니다. 이러한 워크플로는 단 몇 줄의 코드만 필요로 하므로 팀은 소형 객체 탐지를 위해 모델을 빠르게 실험하고 미세 조정할 수 있습니다.
- 엣지 배포를 위한 최적화: YOLO11은 NVIDIA Jetson, Raspberry Pi, 산업용 카메라 시스템과 같은 엣지 기기에서 효율적으로 실행될 수 있습니다. 간단히 말해, 기기에서 직접 실시간 비전 AI 작업을 가능하게 합니다.
Link to this sectionYOLO11로 소형 객체를 탐지할 때 사용하는 실용적인 전략#
YOLO11과 같은 모델을 사용하는 것 외에도, 주석(Annotation)을 준비하는 방법, 전체 데이터셋, 그리고 모델 학습 절차는 탐지 성능에 큰 차이를 만들 수 있습니다.
집중해야 할 사항에 대한 간략한 개요입니다:
- 적절한 데이터 증강: 스케일링이나 크로핑과 같은 가벼운 데이터 증강은 모델이 새로운 이미지에 일반화되도록 도울 수 있습니다. 그러나 공격적인 대규모 증강은 소형 객체를 왜곡하거나 제거하여 모델이 학습하기 더 어렵게 만들 수 있습니다.
- 실패 사례 분석: 모델이 객체를 놓치거나 잘못 식별하는 부분을 분석하는 것은 기준선을 만들고 문제가 데이터셋에서 비롯되는지, 특징 추출 중에 정보가 손실되는지, 아니면 학습 설정을 조정해야 하는지 밝히는 데 도움이 됩니다.
- 데이터셋 구성: 데이터셋은 모델이 의미 있는 패턴을 학습할 수 있도록 소형 객체의 충분한 예시를 포함해야 하며, 학습 중에 큰 객체가 작은 객체를 압도하지 않도록 균형을 유지해야 합니다.
Link to this section핵심 요약#
소형 객체 탐지는 이미지가 컴퓨터 비전 모델을 통과하면서 작은 대상이 디테일을 잃기 때문에 어렵습니다. YOLO11은 이러한 디테일이 보존되는 방식을 개선하여 실시간 성능을 희생하지 않고도 소형 객체 탐지를 더욱 신뢰할 수 있게 만듭니다. 이러한 균형을 통해 YOLO11은 실제 애플리케이션에서 정확하고 효율적인 탐지를 지원합니다.
성장하는 저희 커뮤니티에 참여하세요! AI에 대해 자세히 알아보려면 GitHub 저장소를 살펴보십시오. 솔루션 페이지를 방문하여 소매업의 컴퓨터 비전 및 자동차 산업의 AI와 같은 혁신을 발견하십시오. 오늘 바로 컴퓨터 비전으로 빌드를 시작하려면 라이선스 옵션을 확인하십시오.






