Ultralytics 더 빠른, 에지 우선 설계!

이번 주 초, Ultralytics 더 빠르고 가볍고 작은 YOLO Ultralytics Ultralytics 출시했습니다. YOLO 컴퓨터 비전 시스템이 에지에서 수행하는 방식을 재정의하는 것을 목표로 합니다. YOLO26은 물체 탐지 및 인스턴스 분할을 포함하여 기존 YOLO 동일한 핵심 비전 작업을 지원합니다.

‍

YOLO26과 기존 모델 간의 결정적 차이는 설계된 운영 환경에 있습니다. 클라우드 그래픽 처리 장치(GPU)나 벤치마크 중심 성능을 주로 최적화하기보다는, YOLO26은 에지 디바이스 및 임베디드 하드웨어에서의 실제 현장 배포를 위해 처음부터 설계되었습니다.

컴퓨터 비전이 연구 단계에서 생산 단계로 넘어감에 따라 성능 제약의 현실이 더욱 명확해지고 있다. 엣지 환경은 엄격한 지연 시간 예산, 제한된 메모리, 전력 및 열 제약, 그리고 다양한 플랫폼 전반에 걸쳐 예측 가능한 동작이 필요하다는 점에 의해 형성된다.

이러한 환경에서는 전체 시스템 성능이 단순한 추론 속도뿐만 아니라 전체 파이프라인의 효율성에 달려 있습니다. 후처리 오버헤드, 메모리 압박, 플랫폼별 실행 경로가 흔히 병목 현상을 일으킵니다.

YOLO26은 개별 모델 지표가 아닌 전체 추론 파이프라인을 살펴보는 더 빠르고 에지 중심의 접근 방식으로 이러한 과제를 해결합니다. 에지 최적화에 집중하고, 추론 파이프라인을 단순화하며, 불필요한 후처리 단계를 제거함으로써 YOLO26은 속도 향상을 제공하여 생산 환경에서 더 낮은 지연 시간과 더 안정적인 동작을 실현합니다.

이 글에서는 YOLO26의 아키텍처 선택이 실제 성능 향상으로 어떻게 이어지는지, 그리고 에지에서 더 빠른 처리가 차세대 컴퓨터 비전 애플리케이션의 가능성을 근본적으로 어떻게 변화시키는지 살펴보겠습니다.

에지 배포의 현실

엣지에서 컴퓨터 비전 모델을 실행하는 것은 클라우드에서 실행하는 것과 매우 다릅니다. 클라우드 환경에서는 시스템이 일반적으로 강력한 GPU, 대용량 메모리, 안정적인 하드웨어에 접근할 수 있습니다. 엣지에서는 동일한 가정이 적용되지 않습니다.

대부분의 엣지 배포는 GPU가 아닌 다양한 하드웨어 아키텍처에서 실행됩니다. 디바이스는 일반적으로 서로 다른 작업을 위해 여러 개의 특수 프로세서를 사용하며, 이는 클라우드 GPU의 순수 연산 능력보다는 효율성과 저전력에 최적화되어 있습니다.

지연 시간은 또 다른 주요 제약 요소입니다. 에지 시스템은 종종 엄격한 실시간 제약 조건 하에서 작동하며, 여기서 아주 작은 지연조차도 반응성이나 안전성에 영향을 미칠 수 있습니다. 이러한 경우, 종단 간 지연 시간이 순수 추론 속도보다 더 중요합니다. 모델이 이론상으로는 빠를 수 있지만, 후처리 및 데이터 이동이 추가되면 여전히 부족할 수 있습니다.

메모리 역시 중요한 역할을 합니다. 많은 에지 디바이스는 제한된 메모리와 공유 캐시를 가지고 있습니다. 모델 자체가 효율적이라 하더라도, 큰 중간 텐서와 비효율적인 메모리 사용은 시스템 속도를 저하시킬 수 있습니다.

전력 및 열적 한계는 추가적인 제약을 가합니다. 에지 디바이스는 능동 냉각 없이 고정된 전력 예산 내에서 작동하는 경우가 많습니다. 성능은 단순히 순간적으로 빠른 것이 아니라 효율적이고 지속 가능해야 합니다.

이 모든 것 외에도, 에지 배포에는 일관성이 요구됩니다. 모델은 다양한 기기와 런타임 환경에서 동일한 동작을 보여야 합니다. 플랫폼별 코드나 복잡한 후처리 단계는 미묘한 차이를 유발하여 시스템 배포와 유지보수를 어렵게 만들 수 있습니다.

‍

이러한 제약 조건들은 에지에서 성능이 실제로 무엇을 의미하는지 정의합니다. 즉, 성능은 단일 지표가 아닌 전체 파이프라인에 의해 정의됩니다.

왜 에지 비전은 다른 성능 모델을 요구하는가

그렇다면 에지 배포의 제약 조건은 에지를 위해 구축된 컴퓨터 비전 모델의 요구 사항과 어떻게 관련될까요? 모델이 연구 환경에서 실제 시스템으로 이동하면 그 연관성이 명확해집니다.

클라우드 환경에서는 성능을 추론 속도나 정확도 같은 벤치마크로 측정하는 경우가 많습니다. 그러나 에지 환경에서는 이러한 지표만으로는 전체 상황을 파악하기 어렵습니다. 비전 시스템은 일반적으로 이기종 하드웨어에서 실행되며, 신경망 추론은 전용 가속기로 오프로드되는 반면 파이프라인의 다른 부분은 범용 프로세서에서 실행됩니다.

이러한 맥락에서 모델 속도만으로는 충분하지 않습니다. 모델이 배포된 후 전체 시스템이 어떻게 작동하는지가 핵심입니다. 모델 자체는 빠르게 보일 수 있지만, 후처리, 데이터 이동 또는 플랫폼별 단계가 추가 오버헤드를 발생시키면 여전히 부족할 수 있습니다.

이것이 바로 에지 비전이 개별 벤치마크보다 시스템 수준의 효율성에 중점을 둔 성능 모델을 필요로 하는 이유입니다. YOLO26은 실제 환경 배포를 위해 설계된 에지 우선 최적화, 간소화된 추론, 엔드투엔드 실행에 초점을 맞춰 이러한 변화를 반영합니다.

속도의 기반: 에지 우선 설계

에지에서 성능은 모델이 장치의 실제 하드웨어 아키텍처에 얼마나 잘 매핑되는지로 결정됩니다. 에지를 우선으로 설계하면 사용 가능한 처리 장치의 구체적인 조합과 무관하게 비전 시스템이 실제 플랫폼 전반에서 안정적으로 실행됩니다.

에지 우선 접근법은 클라우드 GPU에 최적화된 모델을 사후에 적용하는 대신, 이기종 하드웨어 전반에서 예측 가능하고 효율적인 실행을 우선시합니다. 간단히 말해, 이는 신경망 가속기에 잘 적용되는 연산을 선호하고, 모델 외부에서 발생하는 비신경망 작업을 최소화하며, 종단 간 실행 속도를 저하시킬 수 있는 불필요한 복잡성을 줄이는 것을 의미합니다.

YOLO26은 이러한 제약 조건을 고려하여 설계되었습니다. 이 아키텍처는 이상적인 조건에서의 최고 처리량보다는 일관된 성능에 중점을 둡니다. 실행 경로를 단순화하고 불필요한 계산을 제거함으로써 YOLO26은 추론 파이프라인 전반에 걸친 오버헤드를 줄이고, 장치의 가용 가속 기능과 메모리 계층 구조를 더 효율적으로 활용합니다.

이 접근법은 신뢰성도 향상시킵니다. 에지 우선 최적화는 더 예측 가능한 타이밍과 성능 급상승을 줄여주며, 이는 실시간 시스템에 매우 중요합니다. YOLO26은 속도를 달성하기 위해 특수 하드웨어나 무거운 후처리 작업에 의존하기보다는 추론 파이프라인 전반에 걸쳐 효율성을 강조합니다.

종단 간 추론과 후처리 비용

불필요한 후처리 단계를 제거한다는 것이 무엇을 의미하는지 궁금하실 수 있습니다. 이를 이해하기 위해 한 걸음 물러서서 기존 객체 탐지 시스템이 어떻게 작동하는지 살펴보겠습니다.

많은 객체 탐지 파이프라인에서 추론은 모델이 예측을 생성하는 것으로 끝나지 않습니다. 대신 모델은 다수의 중첩된 경계 상자를 출력하며, 이 상자들은 사용되기 전에 필터링 및 정제 과정을 거쳐야 합니다. 이러한 정리 작업은 모델 외부에서 실행되는 후처리 단계를 통해 이루어집니다.

가장 흔한 후처리 단계 중 하나는 비최대 억제( NMS)입니다. NMS 중첩된 바운딩 박스를 NMS 동일한 객체를 가리키는 중복을 제거하고 가장 신뢰도가 높은 탐지 결과만 유지합니다. 이 접근법은 효과적이지만 추론 완료 후 추가적인 연산을 필요로 합니다.

‍

가장자리에서는 이 추가 작업이 비용을 수반한다. NMS 같은 후처리 단계는 신경망 추론에 사용되는 특수 가속기에 적합하지 NMS . 이러한 가속기는 제어 집약적이거나 메모리 집약적인 작업보다는 밀집 신경망 연산에 최적화되어 있기 때문이다.

결과적으로 NMS 추가적인 지연 시간과 메모리 오버헤드를 NMS , 탐지 횟수가 증가함에 따라 그 비용도 커집니다. 모델 자체의 속도가 빠르더라도 NMS 여전히 전체 실행 시간의 상당 부분을 차지할 NMS .

후처리도 시스템 복잡성을 증가시킵니다. 모델 외부에서 실행되기 때문에 다양한 런타임과 하드웨어 대상에 대해 별도로 구현해야 합니다. 이는 종종 플랫폼별 코드 경로, 기기 간 일관성 없는 동작, 그리고 더 취약한 배포 파이프라인으로 이어집니다.

가장 중요한 점은, 후처리 과정이 진정한 종단 간 성능이라는 개념을 무너뜨린다는 것입니다. 모델 추론 속도를 측정하는 것은 시스템이 실제 운영 환경에서 어떻게 동작하는지를 반영하지 못합니다. 궁극적으로 중요한 것은 파이프라인의 모든 단계를 포함하여 입력부터 최종 출력까지 걸리는 총 시간입니다.

이러한 상황에서 후처리 작업은 에지에서 숨겨진 병목 현상이 됩니다. 이는 모델 자체 외부에서 수행되면서도 지연 시간을 증가시키고, CPU 소모하며, 배포를 복잡하게 만듭니다.

YOLO26이 NMS 제거하는 NMS 그로 인해 속도가 빨라지는 이유

YOLO26은 추론 후 중복 탐지 결과를 정리하는 대신 근본 원인을 해결함으로써 NMS 제거합니다. 필터링이 필요한 다수의 중첩 예측을 생성하는 대신, 모델은 확신이 높은 최종 탐지 결과를 직접 생성하도록 훈련됩니다.

이는 훈련 과정에서 탐지 방식의 학습 방식을 변경함으로써 가능해집니다. YOLO26은 객체와 예측값 간의 명확한 일대일 관계를 유도하여 중복을 근원에서 줄입니다. 그 결과, 중복 탐지 문제는 외부 후처리 과정이 아닌 네트워크 내부에서 해결됩니다.

NMS 제거는 에지 성능에 즉각적인 영향을 NMS . NMS 신경망 가속기에 NMS 않으므로 이를 제거하면 메모리 이동이 감소하고 비용이 많이 드는 비신경망 처리 단계를 피할 수 있습니다. 이는 종단 간 지연 시간을 줄이고 성능을 더 예측 가능하게 만듭니다. 특히 후처리 작업이 전체 실행 시간의 상당 부분을 차지할 수 있는 에지 장치에서 더욱 그렇습니다.

추론 파이프라인도 단순화됩니다. 모델 외부 단계가 줄어들면 데이터 이동이 감소하고 구성 요소 간 인수인계도 줄어듭니다. 모델 출력이 이미 최종 결과이므로 실행이 더 예측 가능해집니다.

DFL 제거를 통한 진정한 종단 간 성능 구현

YOLO26의 또 다른 혁신은 경계 상자 회귀에 사용 YOLO 던 분포 초점 손실(DFL)의 제거입니다. DFL을 사용하는 모델은 단일 좌표를 직접 예측하는 대신 가능한 값들의 분포를 학습한 후, 그 분포로부터 최종 경계 상자를 도출했습니다. 이 접근법은 위치 정확도 향상에 기여했으며 이전 세대 모델에서 중요한 진전이었죠.

그러나 시간이 지남에 따라 DFL은 또한 장단점을 가져왔다. 분포 예측은 계산량을 증가시키고 모델 아키텍처에 복잡성을 더하여 CPU에서의 추론을 느리게 하고 다양한 배포 형식 간 모델 내보내기를 어렵게 할 수 있다. DFL은 또한 고정된 회귀 범위를 부과하여 매우 큰 객체를 탐지할 때 유연성을 제한할 수 있었다.

YOLO26은 더 단순한 종단간 설계로 전환하는 과정에서 DFL을 제거합니다. 바운딩 박스 회귀는 정확도를 유지하면서 불필요한 계산을 줄이기 위해 보다 직접적으로 재설계되었습니다. 이 변경은 YOLO26의 NMS 접근 방식과 부합합니다.

43% 더 빠른 CPU 성능의 원천

CPU 기반 벤치마크에서 YOLO26은 이전 YOLO 비해 뚜렷한 성능 향상을 보여줍니다. Ultralytics YOLO11에 비해 YOLO26 나노 모델은 최대 43% 더 빠른 CPU 제공하며, 이 차이는 실제 에지 배포 환경에서 의미 있는 영향을 미칩니다.

‍

이러한 성능 향상은 단일 구성 요소를 최적화하기보다는 전체 추론 파이프라인을 단순화함으로써 달성됩니다. 종단 간 실행은 후처리 오버헤드를 제거하고, 보다 직접적인 바운딩 박스 회귀 기법은 연산량을 줄이며, CPU 설계 선택은 범용 프로세서에서의 실행 효율성을 향상시킵니다.

이러한 변경 사항들은 종합적으로 지연 시간을 줄이고 CPU 낮추며, 실제 에지 하드웨어에서 더 빠르고 일관된 성능을 제공합니다.

YOLO26이 에지 배포 및 수출에 미치는 영향

YOLO26의 성능 향상은 더 빠른 추론을 넘어 확장됩니다. 모델을 단순화하고 메모리 오버헤드를 줄임으로써, 배포가 더 쉬워지고 다양한 에지 환경에서 실행 시 신뢰성이 높아집니다.

YOLO26의 엔드투엔드 설계는 내보내기도 단순화합니다. 보조 구성 요소가 적고 외부 후처리 단계가 없으므로 내보낸 모델은 완전히 독립적입니다. 이는 플랫폼별 종속성을 줄이고 런타임 및 하드웨어 대상 전반에 걸쳐 일관된 동작을 보장하는 데 도움이 됩니다.

실제 적용 시, 이는 YOLO26이 다양한 내보내기 형식을 활용해 카메라, 로봇, 임베디드 시스템과 같은 에지 디바이스에 보다 쉽게 배포될 수 있음을 의미합니다. 내보낸 그대로 실행되며, 통합 단계가 줄어들고 배포 시 드리프트 발생 위험도 감소합니다.

더 빠른 에지 추론은 로봇 공학 및 산업용 비전 AI를 가능하게 합니다

지금까지 YOLO26의 에지 우선 설계가 시스템 수준에서 성능을 어떻게 향상시키는지 살펴보았습니다. 그러나 진정한 영향력은 비전 AI를 실제 애플리케이션에 더 쉽게 통합할 수 있게 한다는 점에 있습니다.

예를 들어, 로봇 공학 및 산업 환경에서 비전 시스템은 종종 엄격한 실시간 제약 조건 하에서 작동합니다. 제한된 컴퓨팅 자원을 활용하고 클라우드 연결에 의존하지 않으면서도 신속하고 일관되게 결정을 내려야 합니다. Ultralytics 사용하면 이러한 요구 사항을 충족하는 것이 현실적으로 가능해집니다.

로봇 내비게이션 및 물체 조작과 같은 애플리케이션은 낮은 지연 시간과 예측 가능한 추론으로 혜택을 얻어, 로봇이 환경 변화에 부드럽게 대응할 수 있게 합니다. 마찬가지로 산업 현장에서는 비전 모델을 생산 라인에서 직접 실행하여 지연이나 추가 복잡성 없이 detect , track , 공정 모니터링을 수행할 수 있습니다.

엣지 하드웨어에서 빠르고 안정적인 추론을 가능하게 함으로써, YOLO26은 비전 AI를 배포 및 유지 관리의 난제가 아닌 로봇 공학 및 산업 시스템의 자연스러운 일부로 만드는 데 기여합니다.

주요 내용

YOLO26은 지연 시간, 메모리, 신뢰성 같은 현실 세계의 제약 조건이 가능성을 결정하는 에지 환경을 위해 설계되었습니다. CPU 실행, 엔드투엔드 추론, 간소화된 배포를 중심으로 모델을 설계함으로써 YOLO26은 비전 AI를 실제 시스템에 통합하는 실용성을 제공합니다. 이 에지 우선 접근 방식은 성능과 예측 가능성이 가장 중요한 로봇공학, 산업용 비전부터 임베디드 및 온디바이스 AI에 이르기까지 광범위한 애플리케이션을 가능하게 합니다.

성장하는 커뮤니티에 가입하고 GitHub 리포지토리에서 실습용 AI 리소스를 살펴보세요. 지금 바로 Vision AI로 구축하려면 라이선스 옵션을 살펴보세요. 솔루션 페이지를 방문하여 농업 분야의 AI가 농업을 어떻게 변화시키고 있는지, 의료 분야의 Vision AI가 미래를 어떻게 만들어가고 있는지 알아보세요.

Ultralytics 더 빠르고 에지 우선 설계가 미치는 영향

에지 배포의 현실

왜 에지 비전은 다른 성능 모델을 요구하는가

속도의 기반: 에지 우선 설계

종단 간 추론과 후처리 비용

YOLO26이 NMS 제거하는 NMS 그로 인해 속도가 빨라지는 이유

DFL 제거를 통한 진정한 종단 간 성능 구현

43% 더 빠른 CPU 성능의 원천

YOLO26이 에지 배포 및 수출에 미치는 영향

더 빠른 에지 추론은 로봇 공학 및 산업용 비전 AI를 가능하게 합니다

주요 내용

이 카테고리에서 더 읽어보기

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 활용한 교통 사고 관리 자동화

Ultralytics 프로덕션 환경에 배포하기 더 쉬운 이유를 살펴봅니다!

함께 미래의 AI를 만들어 갑시다!