ProgLoss, STAL 및 MuSGD로 Ultralytics YOLO26이 더 스마트하게 학습하는 방법
ProgLoss(Progressive Loss Balancing), STAL(Small-Target-Aware Label Assignment) 및 MuSGD 옵티마이저를 사용하여 Ultralytics YOLO26이 어떻게 더 안정적으로 학습하는지 알아보십시오.

Last week, we released Ultralytics YOLO26, setting a new standard for edge-first, real-time computer vision models. Similar to previous Ultralytics YOLO models, such as Ultralytics YOLO11, YOLO26 supports the core computer vision tasks users are familiar with, including object detection, instance segmentation, and pose estimation.

그림 1. 이미지 내 객체를 세그멘테이션하는 데 사용되는 YOLO26의 예시입니다.
하지만 YOLO26은 단순한 점진적 업데이트가 아닙니다. 지원되는 작업은 친숙해 보일 수 있지만, 이 새로운 모델은 컴퓨터 비전 모델이 학습되는 방식에 있어 혁신적인 한 걸음을 내디뎠습니다. YOLO26은 추론 효율성을 넘어 더욱 안정적인 학습을 구현하는 데 중점을 둡니다.
YOLO26은 전체 학습 수명 주기를 고려하여 설계되었습니다. 이는 더 빠른 수렴, 더 신뢰할 수 있는 학습 실행, 그리고 일관된 모델 동작을 의미합니다. 이러한 개선 사항은 실무 워크플로우에서 매우 중요하며, 모델 반복과 배포 속도에 직접적인 영향을 미칩니다.
이를 구현하기 위해 YOLO26은 프로그레시브 손실 균형(ProgLoss), 소형 객체 인식 라벨 할당(STAL), MuSGD 옵티마이저와 같은 몇 가지 타겟팅된 학습 혁신을 도입했습니다. 이러한 변경 사항은 종합적으로 학습 손실의 균형, 라벨 할당 방식, 그리고 시간 경과에 따른 최적화 동작을 개선합니다.
본 글에서는 각 메커니즘이 어떻게 작동하는지, 그리고 왜 이러한 기능이 Ultralytics YOLO26을 더 쉽게 학습시키고 대규모 환경에서 더 안정적으로 만드는지 살펴보겠습니다. 시작해 보겠습니다!
Link to this sectionUltralytics YOLO26: 더 빠르게 실행될 뿐만 아니라 더 똑똑하게 학습하도록 설계됨#
Ultralytics YOLO26은 비최대 억제(NMS)와 같은 후처리 단계에 대한 의존성을 제거하여 전체 추론 파이프라인을 기본적으로 간소화합니다. 중복되는 예측을 많이 생성한 후 이를 필터링하는 대신, YOLO26은 네트워크에서 직접 최종 탐지 결과를 생성합니다.
이로써 YOLO26은 엔드투엔드 모델이 되었으며, 예측, 중복 해결, 최종 출력이 모두 네트워크 내부에서 학습됩니다. 이는 배포를 단순화하고 추론 효율성을 개선하는 동시에, 학습 중에 모델이 학습하는 방식을 형성합니다.

그림 2. YOLO26은 최첨단 엔드투엔드, NMS 없는 추론을 제공합니다 (출처)
이와 같은 엔드투엔드 시스템에서는 학습과 추론이 긴밀하게 연결되어 있습니다. 나중에 예측을 수정할 외부 후처리 단계가 없으므로, 모델은 학습 과정에서 명확하고 자신감 있는 결정을 내리도록 학습해야 합니다.
따라서 학습 목표와 추론 동작 간의 정렬이 특히 중요해집니다. 모델이 학습되는 방식과 추론 시 사용되는 방식 사이에 불일치가 있으면 불안정한 학습이나 더 느린 수렴으로 이어질 수 있습니다.
YOLO26은 설계 초기부터 실제 사용 환경을 중심으로 학습 프로세스를 구성하여 이 문제를 해결합니다. 추론 속도에만 집중하는 대신, Nano부터 Extra Large까지의 모델 크기 전반에 걸쳐 안정적인 학습, 일관된 수렴, 그리고 다양한 데이터셋에서의 강력한 성능을 지원하도록 학습 시스템이 구축되었습니다.
Link to this section두 개의 학습 헤드가 Ultralytics YOLO26의 학습을 개선하는 방법#
Ultralytics YOLO26의 주요 학습 혁신 중 하나는 이전 YOLO 모델에서 사용된 2헤드 학습 방식을 발전시킨 것입니다. 객체 탐지 모델에서 '헤드'는 예측을 수행하는 네트워크 부분을 의미합니다.
즉, 탐지 헤드는 이미지 내 객체의 위치와 객체의 종류를 예측하는 법을 배웁니다. 이는 바운딩 박스 좌표를 회귀 분석하여 수행되며, 입력 이미지 내 각 객체의 위치와 크기를 추정하는 것을 학습합니다.
학습 중에 모델은 예측이 정답(Ground Truth)과 얼마나 차이가 나는지를 수치화한 '손실(loss)'을 최소화하는 방식으로 학습합니다. 손실이 낮을수록 모델의 예측이 정답에 가깝고, 손실이 높을수록 오차가 크다는 것을 의미합니다. 이 손실 계산은 학습 중에 모델이 파라미터를 업데이트하는 방법을 안내합니다.
YOLO26은 학습 중에 동일한 기반 모델을 공유하면서도 서로 다른 목적을 가진 두 개의 탐지 헤드를 사용합니다. '일대일(one-to-one) 헤드'는 추론 시 사용되는 헤드입니다. 이는 각 객체를 단일하고 자신감 있는 예측에 연결하도록 학습하며, 이는 YOLO26의 엔드투엔드, NMS 없는 설계에 필수적입니다.
한편, '일대다(one-to-many) 헤드'는 학습 중에만 사용됩니다. 이 헤드는 동일한 객체에 대해 여러 예측을 연결할 수 있게 하여 더 밀도 높은 감독을 제공합니다. 이러한 더 풍부한 학습 신호는 특히 초기 단계에서 학습을 안정화하고 정확도를 향상하는 데 도움을 줍니다.
YOLO26에서 두 헤드는 박스 회귀와 분류에 대해 동일한 손실 계산을 사용합니다. 초기 구현에서는 학습 내내 이 두 손실 신호 간의 균형을 고정된 값으로 적용했습니다.
하지만 실제 환경에서는 학습이 진행됨에 따라 각 헤드의 중요도가 변합니다. 밀도 높은 감독은 초기에 가장 유용하며, 추론 동작과의 일치는 학습 후반부에 더욱 중요해집니다. YOLO26은 이러한 통찰을 바탕으로 설계되었으며, 이는 곧 학습이 진행됨에 따라 학습 신호의 균형을 다시 조정하는 방식으로 이어집니다.
Link to this sectionUltralytics YOLO26의 프로그레시브 손실 균형(ProgLoss) 활용#
그렇다면 Ultralytics YOLO26은 학습 중에 변화하는 이러한 학습 요구 사항을 어떻게 처리할까요? ProgLoss(프로그레시브 손실 균형)를 사용하여 시간 경과에 따른 학습 신호의 가중치를 조정합니다.
ProgLoss는 학습이 진행됨에 따라 각 헤드가 전체 손실에 기여하는 정도를 동적으로 전환하는 방식으로 작동합니다. 초기에는 학습을 안정화하고 재현율(recall)을 향상하기 위해 일대다 헤드에 더 높은 가중치를 둡니다. 학습이 계속됨에 따라 균형은 점차 일대일 헤드 쪽으로 이동하며, 학습 과정을 추론 동작과 더욱 긴밀하게 정렬시킵니다.
이러한 점진적인 전환을 통해 YOLO26은 올바른 순서로 학습할 수 있습니다. 모델이 경쟁적인 목표들을 한꺼번에 최적화하도록 강제하는 대신, 프로그레시브 손실 균형은 학습의 각 단계에서 가장 유용한 학습 신호를 우선순위에 둡니다. 그 결과 수렴이 훨씬 부드러워지고, 불안정한 학습 실행이 줄어들며, 최종 성능이 더 일관되게 유지됩니다.
Link to this sectionSTAL이 Ultralytics YOLO26의 소형 객체 학습을 돕는 방법#
Ultralytics YOLO26의 또 다른 흥미로운 학습 개선 사항은 모델이 예측에 학습 타겟을 할당하는 방식, 즉 '라벨 할당(label assignment)' 과정에서 나옵니다. 이는 정답 객체를 후보 예측(종종 '앵커'라고 함)에 일치시키는 역할을 합니다.
이러한 매칭은 어떤 예측이 감독을 받고 손실 계산에 기여할지를 결정합니다. YOLO26은 학습 중에 분류와 위치 파악을 더 잘 정렬하기 위해 설계된 '태스크 정렬 학습(TAL, Task Alignment Learning)'이라는 기존 라벨 할당 방식을 기반으로 합니다.
TAL은 대부분의 객체에 잘 작동하지만, 학습 과정에서 중요한 한계가 드러났습니다. 매칭 과정 중에 매우 작은 객체가 완전히 탈락할 수 있다는 점입니다. 실제로 640픽셀 입력 이미지에서 약 8픽셀보다 작은 객체는 앵커 할당을 전혀 받지 못하는 경우가 많았습니다. 이런 경우 모델은 해당 객체에 대한 감독을 거의 또는 전혀 받지 못하여, 이를 안정적으로 탐지하는 방법을 배우기가 어려워집니다.
이 문제를 해결하기 위해 YOLO26은 '소형 객체 인식 라벨 할당(STAL, Small-Target-Aware Label Assignment)'을 도입했습니다. STAL은 할당 과정을 수정하여 학습 중에 작은 객체가 무시되지 않도록 합니다. 구체적으로, 8픽셀 미만의 객체에 대해 최소 4개의 앵커 할당을 강제합니다. 이를 통해 아주 작은 객체라도 학습 손실에 일관되게 기여할 수 있도록 보장합니다.
작은 대상에 대한 감독을 강화함으로써 STAL은 작거나 먼 객체가 흔히 존재하는 환경에서 학습 안정성과 탐지 성능을 향상합니다. 이러한 개선은 특히 항공 이미지, 로봇 공학, 사물 인터넷(IoT) 시스템과 같이 객체가 작고 멀리 있거나 부분적으로만 보이는 상황에서 안정적인 탐지가 중요한 엣지 우선 YOLO26 애플리케이션에 매우 중요합니다.
Link to this sectionUltralytics YOLO26, MuSGD 옵티마이저 도입#
더 안정적이고 예측 가능한 학습을 지원하기 위해 Ultralytics YOLO26은 MuSGD라는 새로운 옵티마이저를 도입했습니다. 이 옵티마이저는 특히 모델 크기와 학습 복잡도가 증가함에 따라 엔드투엔드 탐지 모델의 수렴과 학습 신뢰성을 개선하도록 설계되었습니다.
신경망이 학습하고 그에 따라 가중치를 변경하려면 학습 중에 오차(손실)를 계산해야 합니다. 따라서 모델은 손실 값을 사용하여 자신의 예측이 얼마나 틀렸는지 측정하고, 파라미터가 어떻게 변해야 하는지를 나타내는 그래디언트를 계산한 다음, 그 파라미터를 업데이트하여 오차를 줄입니다. 확률적 경사 하강법(SGD)은 이러한 업데이트를 수행하여 학습을 효율적이고 확장 가능하게 만드는 널리 사용되는 옵티마이저입니다.

그림 3. 확률적 경사 하강법 vs 경사 하강법 (출처)
MuSGD는 거대 언어 모델 학습에 사용되는 방법인 Muon에서 영감을 받은 최적화 아이디어를 통합하여 이러한 친숙한 기반을 확장합니다. 이러한 아이디어는 더 체계적인 파라미터 업데이트를 통해 개선된 학습 동작을 보여준 Moonshot AI의 Kimi K2와 같은 최근의 발전 사례로부터 영향을 받았습니다.
YOLO26은 하이브리드 업데이트 전략을 사용합니다. 일부 파라미터는 Muon 기반 업데이트와 SGD의 조합을 사용하여 업데이트되고, 다른 파라미터는 SGD만 사용합니다. 이를 통해 YOLO26은 SGD를 효과적으로 만든 견고함과 일반화 특성을 유지하면서 최적화 프로세스에 추가적인 구조를 도입할 수 있게 되었습니다.
그 결과 최적화가 더 부드러워지고, 수렴이 빨라지며, 모델 크기에 걸쳐 더 예측 가능한 학습 동작을 보이게 되었습니다. MuSGD는 바로 이런 점에서 YOLO26이 더 쉽게 학습되고 대규모 환경에서 더 안정적인 이유의 핵심 요소입니다.
Link to this sectionUltralytics YOLO26 학습 혁신의 의의#
Ultralytics YOLO26의 학습 혁신은 엔드투엔드, NMS 없는 설계, 엣지 우선 설계와 같은 주요 기능과 결합하여 모델을 더 쉽게 학습시키고 대규모 환경에서 더 안정적으로 만듭니다. 이것이 실제 컴퓨터 비전 애플리케이션에 어떤 의미가 있는지 궁금하실 것입니다.

그림 4. YOLO26의 주요 기능 살펴보기 (출처)
실제 작동 시, 컴퓨터 비전을 실제 실행되는 곳으로 가져오는 작업이 훨씬 쉬워집니다. 모델은 더 예측 가능하게 학습되고, 크기에 따라 더 일관되게 확장되며, 새로운 데이터셋에 더 간단하게 적용할 수 있습니다. 이는 특히 신뢰성과 효율성이 성능만큼 중요한 환경에서 실험과 배포 사이의 마찰을 줄여줍니다.
예를 들어, 로봇 공학 및 산업용 비전 애플리케이션에서는 환경, 센서 또는 작업이 변경됨에 따라 모델을 자주 재학습해야 하는 경우가 많습니다. YOLO26을 사용하면 팀은 불안정한 학습 실행이나 모델 크기 간의 일관되지 않은 동작에 대해 걱정할 필요 없이 더 빠르게 반복할 수 있습니다.
Link to this section핵심 요약#
신뢰할 수 있는 컴퓨터 비전 시스템은 모델의 추론 성능만큼이나 모델의 학습 방식에 의존합니다. 학습 신호의 균형을 맞추는 방법, 작은 객체를 처리하는 방법, 최적화 진행 방식을 개선함으로써 YOLO26은 학습을 더욱 안정적이고 확장하기 쉽게 만듭니다. 이러한 안정적인 학습에 대한 집중은 팀이 특히 엣지 우선 애플리케이션에서 실험 단계에서 실제 배포 단계로 더 원활하게 넘어갈 수 있도록 돕습니다.
AI에 대해 더 알고 싶으신가요? GitHub 저장소를 방문하여 자세한 내용을 확인해 보세요. 활발한 커뮤니티에 참여하여 물류 AI 및 자동차 산업의 비전 AI와 같은 분야의 혁신에 대해 알아보십시오. 지금 바로 컴퓨터 비전을 시작하려면 라이선스 옵션을 확인해 보시기 바랍니다.






