Ultralytics YOLO26이 NMS를 제거하는 이유와 그것이 배포를 어떻게 변화시키는지
Ultralytics YOLO26이 어떻게 진정한 엔드 투 엔드, NMS-free 추론을 가능하게 하는지, 그리고 후처리를 제거하는 것이 왜 내보내기 및 에지 배포를 단순화하는지 알아보십시오.

1월 14일, 당사는 차세대 컴퓨터 비전 모델인 Ultralytics YOLO26을 출시했습니다. YOLO26의 목표는 단순히 정확도나 속도를 개선하는 것을 넘어, 실제 시스템에서 객체 탐지 모델을 구축하고 배포하는 방식을 재고하는 것이었습니다.
컴퓨터 비전이 연구 단계를 넘어 프로덕션으로 전환됨에 따라, 모델은 CPU, 엣지 디바이스, 카메라, 로봇 및 임베디드 하드웨어에서 실행될 것을 요구받고 있습니다. 이러한 환경에서는 신뢰성, 낮은 지연 시간(latency), 간편한 배포가 성능만큼이나 중요합니다.
YOLO26은 이러한 현실을 염두에 두고 설계되었으며, 추론 파이프라인에서 불필요한 복잡성을 제거하는 간소화된 엔드투엔드(end-to-end) 아키텍처를 사용합니다. YOLO26에서 이루어진 가장 중요한 혁신 중 하나는 흔히 NMS로 알려진 Non-Maximum Suppression의 제거입니다.
수년 동안 NMS는 객체 탐지 시스템의 표준적인 부분으로서, 중복 탐지를 정리하기 위한 후처리 단계로 사용되어 왔습니다. 효과적이기는 하지만, 특히 엣지 하드웨어에서 추가적인 연산과 배포 문제를 야기했습니다.
YOLO26에서는 다른 접근 방식을 취했습니다. 예측이 생성되고 학습되는 방식을 재고함으로써, 진정한 엔드투엔드 NMS-free 추론을 가능하게 했습니다. 모델은 외부의 정리 단계나 수작업 규칙에 의존하지 않고 최종 탐지 결과를 직접 생성합니다. 이는 YOLO26을 더욱 빠르고, 더 쉽게 내보낼 수 있으며, 다양한 하드웨어 플랫폼 전반에 걸쳐 더 신뢰성 있게 배포할 수 있도록 만듭니다.

그림 1. Ultralytics YOLO26을 사용한 이미지 내 객체 탐지.
본 글에서는 전통적인 객체 탐지가 왜 NMS에 의존했는지, 어떻게 배포의 병목 현상이 되었는지, 그리고 YOLO26이 어떻게 해결책의 필요성을 없앴는지 자세히 살펴볼 것입니다. 시작해 보겠습니다!
Link to this section전통적인 객체 탐지는 중복 탐지를 생성합니다#
NMS가 무엇이며 왜 YOLO26에서 이를 제거했는지 알아보기 전에, 잠시 물러나 전통적인 객체 탐지 모델이 예측을 생성하는 방식을 살펴보겠습니다.
전통적인 객체 탐지 모델은 종종 동일한 객체에 대해 여러 개의 겹치는 BBox를 생성합니다. 이러한 상자들은 모두 이미지 내의 동일한 객체를 가리킴에도 불구하고, 각각 고유한 신뢰도 점수를 가집니다.
이러한 현상이 발생하는 이유는 몇 가지가 있습니다. 첫째, 모델은 여러 공간 위치와 서로 다른 스케일에서 동시에 예측을 수행합니다. 이는 모델이 다양한 크기의 객체를 탐지하는 데 도움이 되지만, 동시에 인접한 위치에서 모두 독립적으로 동일한 객체를 식별할 수 있음을 의미합니다.
둘째, 많은 객체 탐지 시스템은 앵커 기반(anchor-based) 방식을 사용하여 각 위치 주변에 많은 수의 후보 상자를 생성합니다. 이는 객체를 정확하게 찾을 확률을 높이지만, 겹치는 예측의 수도 증가시킵니다.
마지막으로, 격자 기반(grid-based) 탐지 자체가 본질적으로 중복성을 초래합니다. 객체가 여러 격자 셀의 경계 근처에 있을 때, 여러 셀이 해당 객체에 대한 상자를 예측하여 결과적으로 여러 개의 겹치는 탐지가 발생할 수 있습니다.
이러한 이유로 모델의 원시 출력에는 종종 하나의 객체에 대해 여러 개의 상자가 포함됩니다. 결과를 사용 가능하게 하려면, 단 하나의 최종 탐지만 남도록 이러한 중복 예측을 필터링해야 합니다.
Link to this sectionNon-Maximum Suppression 이해하기#
객체 탐지 모델이 동일한 객체에 대해 여러 개의 겹치는 BBox를 생성하면, 해당 결과를 사용하기 전에 정리해야 합니다. 여기서 Non-Maximum Suppression이 적용됩니다.
Non-Maximum Suppression은 모델이 예측을 완료한 후 실행되는 후처리 단계입니다. 그 목적은 중복 탐지를 줄여 각 객체가 하나의 최종 BBox로 표현되도록 하는 것입니다.

그림 2. NMS 개요. 이미지 제공: 저자.
이 과정은 BBox를 신뢰도 점수와 겹치는 정도에 따라 비교하여 작동합니다. 신뢰도가 매우 낮은 예측은 먼저 제거됩니다.
남은 상자들은 신뢰도 순으로 정렬되며, 가장 높은 점수를 받은 상자가 최상의 탐지로 선택됩니다. 선택된 상자는 다른 상자들과 비교됩니다.
만약 다른 상자가 지나치게 많이 겹친다면, 그 상자는 억제되어 제거됩니다. 겹침은 일반적으로 두 상자가 공유하는 영역과 두 상자가 차지하는 전체 영역 간의 비율을 계산하는 지표인 Intersection over Union을 사용하여 측정됩니다. 이 과정은 가장 신뢰도가 높고 겹치지 않는 탐지만 남을 때까지 반복됩니다.
Link to this sectionNMS가 배포를 복잡하게 만드는 이유#
Non-Maximum Suppression은 중복 탐지를 필터링하는 데 도움이 되지만, 모델이 연구 단계를 벗어나 실제 배포 환경으로 이동할 때 더욱 분명해지는 문제점들도 발생시킵니다.
가장 큰 문제 중 하나는 성능입니다. NMS는 추론 후에 실행되며, 어떤 상자를 유지할지 결정하기 위해 BBox들을 서로 비교해야 합니다.
이 과정은 연산 비용이 높고 효율적으로 병렬화하기 어렵습니다. 엣지 디바이스와 CPU 기반 시스템에서는 이러한 추가 작업이 눈에 띄는 지연 시간을 추가하여 실시간 요구 사항을 충족하기 어렵게 만듭니다.
또한 NMS는 배포 복잡성을 증가시킵니다. 모델 자체의 일부가 아니기 때문에, 후처리 코드로 별도 구현되어야 합니다.
런타임과 플랫폼마다 NMS를 처리하는 방식이 다르며, 이는 종종 각 대상 환경에 대해 사용자 지정 구현을 유지 관리해야 함을 의미합니다. 한 설정에서 작동하는 방식이 다른 설정에서는 다르게 동작할 수 있어 배포를 더욱 취약하게 만들고 확장을 어렵게 합니다.
하드웨어 최적화 역시 또 다른 과제입니다. NMS는 신경망 연산을 효율적으로 실행하도록 설계된 특수 AI 가속기에 깔끔하게 매핑되지 않습니다. 결과적으로 모델이 최적화된 하드웨어에서 빠르게 실행되더라도, NMS가 전체 성능을 제한하는 병목 현상이 될 수 있습니다.
이러한 요인들 외에도 NMS는 신뢰도 임계값 및 겹침 임계값과 같이 수동으로 선택된 파라미터에 의존합니다. 이러한 설정은 결과에 상당한 영향을 미칠 수 있으며 종종 서로 다른 데이터셋, 애플리케이션 또는 하드웨어에 맞게 튜닝되어야 합니다. 이는 프로덕션 시스템에서 동작의 예측 가능성을 떨어뜨리고 추가적인 구성 오버헤드를 가중시킵니다.
Link to this section엔드투엔드 객체 탐지 추론 설명#
Non-Maximum Suppression의 한계로 인해 당사는 객체 탐지 모델이 추론 시점에 어떻게 동작해야 하는지 재고하게 되었습니다. 많은 겹치는 예측을 생성하고 나중에 이를 정리하는 대신, 더욱 근본적인 질문을 던졌습니다.
모델이 최종 탐지 결과를 직접 생성할 수 있다면 어떨까요? 이 질문은 엔드투엔드 객체 탐지 추론의 핵심에 있습니다. 엔드투엔드 시스템에서 모델은 외부의 정리 단계에 의존하지 않고 처음부터 끝까지 전체 탐지 과정을 처리하도록 학습됩니다.
추론 후 많은 후보 상자를 생성하고 필터링하는 대신, 모델은 신뢰할 수 있고 겹치지 않는 적은 수의 예측을 스스로 생성하는 방법을 학습합니다. 중복 탐지는 후처리에 의해 제거되는 대신 네트워크 내부에서 해결됩니다.
최신 모델 아키텍처들은 이러한 접근 방식이 가능하고 실용적임을 보여주었습니다. 올바른 학습 전략을 사용하면, 모델은 각 객체를 여러 개의 경쟁하는 예측이 아닌 단일 예측과 연관시키는 법을 학습하여 중복을 근본적으로 줄일 수 있습니다.

그림 3. Ultralytics YOLO26을 사용한 객체 탐지 예시.
이를 위해서는 학습 방식도 바뀌어야 합니다. 많은 예측이 동일한 객체를 두고 경쟁하게 하는 대신, 모델은 하나의 명확한 결정을 내리도록 학습하여 더 적고 신뢰도 높은 탐지 결과를 생성합니다.
전반적인 결과는 더 단순한 추론 파이프라인입니다. 중복은 이미 내부적으로 해결되었기 때문에 추론 시점에 Non-Maximum Suppression이 필요하지 않습니다. 모델 출력 자체가 이미 최종 탐지 세트입니다.
이러한 엔드투엔드 설계는 배포 또한 더 쉽게 만듭니다. 후처리 단계나 플랫폼별 NMS 구현이 없으므로, 내보낸 모델은 완전히 독립적이며 서로 다른 추론 프레임워크와 하드웨어 대상 전반에서 일관되게 동작합니다.
당사의 리드 파트너십 엔지니어인 Francesco Mattioli는 다음과 같이 설명합니다. "진정한 엔드투엔드 학습이란 모델이 미분 가능성을 깨뜨리고 배포를 복잡하게 만드는 수작업 후처리 단계 없이, 픽셀에서 예측에 이르는 모든 것을 처리해야 함을 의미합니다."
Link to this sectionUltralytics YOLO26이 NMS를 제거하는 방법#
YOLO26은 후처리에 의존하여 탐지 결과를 정리하는 대신, 탐지 결과가 학습되고 생성되는 방식을 변경함으로써 Non-Maximum Suppression을 제거합니다. YOLO26은 많은 예측이 동일한 객체를 두고 경쟁하게 하는 대신, 객체와 출력 간의 명확한 일대일 관계를 학습하도록 훈련됩니다.
이는 부분적으로 학습 가능한 쿼리 기반 탐지에 의해 활성화되며, 모델이 많은 겹치는 후보 대신 각 객체에 대해 단일하고 신뢰도 높은 예측을 생성하는 데 집중하도록 돕습니다. 각 객체는 하나의 예측과 연관되어 자연스럽게 중복 탐지를 줄입니다.
이러한 동작은 학습 중 일관된 매칭 전략을 통해 강화되어, 모델이 겹치는 예측을 생성하기보다는 객체당 하나의 신뢰도 높은 결정을 내리도록 장려합니다. 궁극적으로 모델은 더 적은 수의 예측을 생성하지만, 각각은 최종 탐지를 나타냅니다.
Link to this sectionDFL 제거가 NMS-free 탐지를 가능하게 한 이유#
YOLO26에서 NMS-free 추론을 가능하게 하는 또 다른 중요한 혁신은 DFL(Distribution Focal Loss)의 제거입니다. 이전의 YOLO 모델들에서 DFL은 단일 값이 아닌 가능한 상자 위치의 분포를 예측함으로써 BBox 회귀를 개선하는 데 사용되었습니다.
이 접근 방식은 위치 정확도를 향상시켰지만, 탐지 파이프라인의 복잡성 또한 증가시켰습니다. 그러한 복잡성은 진정한 엔드투엔드 추론으로 나아갈 때 제약이 되었습니다.
DFL은 추가적인 연산과 고정된 회귀 범위를 도입하여, 모델이 깔끔한 일대일 객체 할당을 학습하기 어렵게 만들었고 Non-Maximum Suppression과 같은 후처리 단계에 대한 의존도를 높였습니다. YOLO26에서는 DFL을 제거하고 BBox 회귀를 더 단순하고 직접적으로 재설계했습니다.
분포 기반 출력에 의존하는 대신, 모델은 더 적고 신뢰도 높은 탐지를 지원하는 방식으로 정확한 상자 좌표를 예측하는 법을 학습합니다. 이러한 변화는 겹치는 예측을 근본적으로 줄이는 데 도움이 되며, BBox 회귀를 YOLO26의 엔드투엔드, NMS-free 설계에 맞게 정렬합니다.
Link to this sectionUltralytics YOLO26은 NMS-free이며 배포가 쉽습니다#
NMS-free 설계는 YOLO26을 진정한 엔드투엔드 모델로 만듭니다. 이는 모델 내보내기에 중요한 영향을 미칩니다.
내보내기란 학습된 모델을 ONNX, TensorRT, CoreML 또는 OpenVINO와 같이 학습 환경 외부에서 실행할 수 있는 형식으로 변환하는 것을 의미합니다. 전통적인 파이프라인에서 Non-Maximum Suppression은 모델 자체의 일부가 아니기 때문에 이 과정에서 종종 문제가 발생합니다.
NMS를 제거함으로써 YOLO26은 이 문제를 완전히 피합니다. 내보낸 모델에는 최종 탐지 결과를 생성하는 데 필요한 모든 것이 이미 포함되어 있습니다.
이로 인해 내보낸 모델은 완전히 독립적이며 추론 프레임워크와 하드웨어 대상 전반에서 더 뛰어난 이식성을 갖게 됩니다. 동일한 모델이 서버, CPU 전용 시스템, 임베디드 디바이스 또는 엣지 가속기에 배포되든 관계없이 일관되게 동작합니다. 내보낸 것이 그대로 실행되기 때문에 배포가 훨씬 간편해집니다.
이러한 단순함은 엣지 애플리케이션에 특히 중요합니다. 예를 들어, YOLO26은 농작물 모니터링, 현장 검사, 식물 건강 분석과 같은 사용 사례를 위해 드론과 같은 기기에 쉽게 배포할 수 있으며, 여기서는 제한된 연산 및 전력 예산으로 인해 복잡한 후처리 파이프라인이 비실용적입니다. 모델이 최종 탐지를 직접 출력하므로 추가 처리 단계 없이 경량 하드웨어에서 안정적으로 실행됩니다.

그림 4. Ultralytics YOLO26은 드론과 같은 엣지 디바이스에 쉽게 배포할 수 있습니다.
요컨대, NMS-free 추론은 내보내기와 배포의 마찰을 제거하며 더 깔끔하고 신뢰할 수 있는 비전 시스템을 가능하게 합니다. NMS는 우회책이었습니다. 이제 YOLO26에는 우회책이 더 이상 필요하지 않습니다.
Link to this section핵심 요약#
YOLO26은 사후에 중복 탐지를 정리하는 대신, 중복 탐지라는 근본적인 문제를 해결함으로써 Non-Maximum Suppression을 제거합니다. 엔드투엔드 설계 덕분에 모델은 최종 탐지 결과를 직접 생성할 수 있으며, 이를 통해 다양한 하드웨어 전반에서 내보내기와 배포가 더 단순하고 일관되게 이루어집니다. NMS는 이전 시스템에는 유용한 우회책이었지만, YOLO26은 더 이상 이를 필요로 하지 않습니다.
당사의 커뮤니티에 가입하고 GitHub 저장소를 확인하여 AI에 대해 더 알아보세요. 농업 분야의 AI 및 소매업의 컴퓨터 비전에 관한 솔루션 페이지를 탐색해 보세요. 라이선스 옵션을 확인하고 오늘 바로 비전 AI를 시작해 보세요!






