Yolo 비전 선전
선전
지금 참여하기

Ultralytics ProgLoss, STAL, MuSGD를 통해 더 스마트하게 학습하는 방법

Ultralytics 점진적 손실 균형 조정(Progressive Loss Balancing), 소형 목표물 인식 라벨 할당(Small-Target-Aware Label Assignment), MuSGD 최적화기(MuSGD optimizer)를 활용하여 더 안정적으로 훈련하는 방법을 알아보세요.

지난주, 우리는 Ultralytics 출시하며 에지 우선 실시간 컴퓨터 비전 모델의 새로운 기준을 제시했습니다. 이전 Ultralytics YOLO , 예를 들어 Ultralytics YOLO11과 마찬가지로, YOLO26은 객체 탐지, 인스턴스 분할, 자세 추정 등 사용자에게 친숙한 핵심 컴퓨터 비전 작업을 지원합니다.

그림 1. YOLO26을 사용하여 이미지 내 segment 예시.

그러나 YOLO26은 단순한 점진적 업데이트가 아닙니다. 지원되는 작업들은 익숙해 보일 수 있지만, 이 새로운 모델은 컴퓨터 비전 모델 훈련 방식에 있어 혁신적인 진전을 의미합니다. YOLO26에서는 추론 효율성뿐만 아니라 훈련 과정의 안정성 향상에도 초점을 맞췄습니다.

YOLO26은 전체 훈련 라이프사이클을 고려하여 설계되었습니다. 이는 더 빠른 수렴, 더 안정적인 훈련 실행, 일관된 모델 동작을 의미합니다. 이러한 개선 사항은 훈련 안정성이 모델의 반복 및 배포 속도에 직접적인 영향을 미치는 실제 작업 환경에서 특히 중요합니다. 

이를 가능하게 하기 위해 YOLO26은 점진적 손실 균형(Progressive Loss Balancing, ProgLoss), 소형 표적 인식 라벨 할당(Small-Target-Aware Label Assignment, STAL), MuSGD 최적화기 등 여러 가지 목표 지향적 훈련 혁신을 도입합니다. 이러한 변경 사항들은 학습 손실의 균형 조정 방식, 라벨 할당 방식, 그리고 시간에 따른 최적화 동작 방식을 개선합니다.

이 글에서는 이러한 각 메커니즘이 어떻게 작동하는지, 그리고 왜 Ultralytics 대규모 환경에서 더 쉽게 훈련되고 더 안정적인지 살펴보겠습니다. 시작해 보겠습니다!

Ultralytics : 더 빠르게 실행하는 것뿐만 아니라 더 스마트하게 학습하도록 설계되었습니다

Ultralytics 비최대 억제(NMS)와 같은 후처리 단계에 대한 의존성을 제거함으로써 전체 추론 파이프라인을 원활하게 간소화합니다. 다수의 중첩된 예측을 생성한 후 이를 필터링하는 대신, YOLO26은 네트워크에서 직접 최종 탐지 결과를 산출합니다. 

이로써 YOLO26은 예측, 중복 해결, 최종 출력이 모두 네트워크 자체 내에서 학습되는 종단간 모델이 됩니다. 이는 배포를 단순화하고 추론 효율성을 향상시키며, 동시에 훈련 과정에서 모델의 학습 방식을 형성합니다.

그림 2. YOLO26은 최첨단 엔드투엔드, NMS 프리 추론을 제공합니다 (출처)

이러한 종단간 시스템에서는 훈련과 추론이 긴밀하게 연결됩니다. 예측을 나중에 수정할 외부 후처리 단계가 없기 때문에, 모델은 훈련 과정 자체에서 명확하고 확신 있는 결정을 내리는 법을 배워야 합니다. 

이는 훈련 목표와 추론 행동 간의 정렬을 특히 중요하게 만듭니다. 모델이 훈련되는 방식과 추론 시점에 사용되는 방식 사이의 불일치는 불안정한 학습이나 더 느린 수렴을 초래할 수 있습니다.

YOLO26은 처음부터 실제 사용 환경을 고려하여 훈련 과정을 설계함으로써 이를 해결합니다. 추론 속도에만 집중하기보다는, 훈련 시스템은 장시간에 걸친 안정적인 학습, Nano부터 Extra Large까지 다양한 모델 크기에서의 일관된 수렴, 그리고 다양한 데이터셋에서의 견고한 성능을 지원하도록 구축되었습니다.

두 개의 훈련 헤드가 Ultralytics YOLO26에서 학습을 개선하는 방법

Ultralytics 핵심 훈련 혁신 중 하나는 기존 YOLO 사용된 이중 헤드 훈련 방식을 기반으로 합니다. 객체 탐지 모델에서 '헤드'란 예측을 담당하는 네트워크의 일부를 의미합니다. 

다시 말해, 탐지 헤드는 이미지 내 물체의 위치와 해당 물체가 무엇인지 예측하는 법을 학습합니다. 이를 위해 바운딩 박스 좌표를 회귀 분석함으로써, 입력 이미지 내 각 물체의 위치와 크기를 추정하는 법을 학습합니다.

훈련 과정에서 모델은 손실 함수를 최소화함으로써 학습합니다. 손실 함수는 모델의 예측값이 정답 또는 진실값으로부터 얼마나 멀리 떨어져 있는지를 수치적으로 측정하는 지표입니다. 손실 값이 낮을수록 모델의 예측값이 진실값에 가까워진다는 의미이며, 손실 값이 높을수록 오차가 크다는 것을 나타냅니다. 손실 계산은 훈련 중 모델이 매개변수를 업데이트하는 방식을 안내합니다.

YOLO26은 훈련 과정에서 동일한 기본 모델을 공유하지만 서로 다른 목적을 수행하는 두 개의 탐지 헤드를 사용합니다. 일대일 헤드는 추론 시점에 사용되는 헤드입니다. 이 헤드는 각 객체를 단일하고 확신 있는 예측과 연관시키는 법을 학습하며, 이는 YOLO26의 엔드투엔드 방식과 NMS 설계에 필수적입니다.

한편, 일대다 헤드(one-to-many head)는 훈련 중에만 사용됩니다. 이는 동일한 객체에 여러 예측을 연관시킬 수 있게 하여 더 밀도 높은 감독을 제공합니다. 이러한 풍부한 학습 신호는 특히 초기 단계에서 훈련을 안정화하고 정확도를 향상시키는 데 도움이 됩니다.

YOLO26에서는 두 헤드가 박스 회귀와 분류에 동일한 손실 계산을 사용합니다. 이전 구현체들은 훈련 전반에 걸쳐 이 두 손실 신호 사이에 고정된 균형을 적용했습니다. 

그러나 실제로는 각 헤드의 중요도가 시간에 따라 변화한다. 초기에는 밀도 높은 감독이 가장 유용한 반면, 훈련 후반부로 갈수록 추론 행동과의 정렬이 더 중요해진다. YOLO26은 이러한 통찰을 바탕으로 설계되었으며, 이는 훈련 진행에 따라 학습 신호를 재조정하는 방식과 직접적으로 연결된다.

Ultralytics 점진적 손실 균형을 사용합니다

그렇다면 Ultralytics 훈련 중 변화하는 학습 요구를 어떻게 처리할까요? 점진적 손실 균형(Progressive Loss Balancing)을 사용하여 시간에 따라 학습 신호의 가중치를 조정합니다.

ProgLoss는 훈련이 진행됨에 따라 각 헤드가 총 손실에 기여하는 정도를 동적으로 조정하는 방식으로 작동합니다. 초기에는 학습 안정화와 재현율 향상을 위해 일대다(one-to-many) 헤드에 더 큰 가중치를 부여합니다. 훈련이 지속됨에 따라 균형이 점차 일대일(one-to-one) 헤드로 이동하여 훈련이 추론 행동과 더 밀접하게 일치하도록 합니다.

이러한 점진적 전환을 통해 YOLO26은 올바른 순서로 학습할 수 있습니다. 경쟁하는 목표를 한꺼번에 최적화하도록 모델을 강요하는 대신, 점진적 손실 균형(Progressive Loss Balancing)은 훈련의 각 단계에서 가장 유용한 학습 신호를 우선시합니다. 그 결과 수렴이 더 부드러워지고, 불안정한 훈련 실행이 줄어들며, 최종 성능이 더 일관되게 유지됩니다.

STAL이 Ultralytics 아주 작은 물체로부터 학습하도록 돕는 방법

Ultralytics YOLO26의 또 다른 흥미로운 훈련 개선점은 모델이 예측에 훈련 목표를 할당하는 방식, 즉 라벨 할당 과정에서 비롯됩니다. 이 과정은 실제 객체(ground truth)를 후보 예측(흔히 앵커라고 함)과 매칭하는 역할을 담당합니다. 

이러한 매칭은 어떤 예측이 감독을 받고 손실에 기여하는지를 결정합니다. YOLO26은 훈련 중 분류와 위치 추정을 더 잘 정렬하기 위해 설계된 기존 레이블 할당 방법인 작업 정렬 학습(TAL)을 기반으로 합니다.

TAL은 대부분의 객체에 효과적이지만, 훈련 과정에서 중요한 한계가 드러났습니다. 매칭 과정에서 매우 작은 객체들은 완전히 누락될 수 있었습니다. 실제로 640픽셀 입력 이미지에서 약 8픽셀보다 작은 객체들은 종종 앵커 할당을 전혀 받지 못했습니다. 이런 경우 모델은 해당 객체들에 대해 거의 또는 전혀 감독을 받지 못하게 되어, detect 안정적으로 detect 법을 학습하기 어렵게 만듭니다.

이 문제를 해결하기 위해 YOLO26은 소형 대상 인식 라벨 할당(STAL)을 도입합니다. STAL은 훈련 과정에서 소형 객체가 무시되지 않도록 할당 과정을 수정합니다. 구체적으로, 8픽셀 미만의 객체에 대해 최소 4개의 앵커 할당을 강제합니다. 이를 통해 아주 작은 객체도 훈련 손실에 지속적으로 기여하도록 보장합니다.

STAL은 소형 대상에 대한 감시를 강화함으로써 소형 또는 원거리 물체가 흔한 시나리오에서 학습 안정성과 탐지 성능을 향상시킵니다. 이러한 개선은 물체가 종종 작거나 멀리 있거나 부분적으로만 보이는 항공 촬영, 로봇 공학, 사물인터넷(IoT) 시스템과 같은 에지 우선 YOLO26 애플리케이션에서 특히 중요하며, 이 경우 신뢰할 수 있는 탐지가 필수적입니다.

Ultralytics MuSGD 최적화기를 도입합니다

더 안정적이고 예측 가능한 훈련을 지원하기 위해 Ultralytics MuSGD라는 새로운 최적화기를 도입합니다. 이 최적화기는 특히 모델 규모와 훈련 복잡성이 증가함에 따라, 종단간 탐지 모델에서 수렴성과 훈련 신뢰성을 향상시키도록 설계되었습니다.

신경망이 학습하고 그에 따라 가중치를 변경하기 위해서는 훈련 과정에서 오차(손실이라고도 함)를 계산합니다. 따라서 모델은 손실 값을 사용하여 예측의 오차를 측정하고, 매개변수가 어떻게 변경되어야 하는지 나타내는 기울기를 계산한 후, 오차를 줄이기 위해 해당 매개변수를 업데이트합니다. 확률적 경사 하강법(SGD) 은 이러한 업데이트를 수행하는 널리 사용되는 최적화 알고리즘으로, 훈련을 효율적이고 확장 가능하게 만듭니다.

그림 3. 확률적 경사 하강법 대 경사 하강법 (출처)

MuSGD는 대규모 언어 모델 훈련에 사용되는 방법인 뮤온(Muon)에서 영감을 받은 최적화 아이디어를 통합함으로써 이 친숙한 기반 위에 구축됩니다. 이러한 아이디어는 구조화된 매개변수 업데이트를 통해 개선된 훈련 행동을 보여준 Moonshot AI의 Kimi K2와 같은 최근 발전에 영향을 받았습니다.

YOLO26은 하이브리드 업데이트 전략을 사용합니다. 일부 파라미터는 뮤온 기반 업데이트와 SGD 조합하여 업데이트하는 반면, 다른 파라미터는 SGD 사용합니다. 이를 통해 YOLO26은 SGD 가능케 한 강건성과 일반화 특성을 유지하면서 최적화 과정에 추가적인 구조를 도입할 수 있습니다.

결과적으로 모델 규모에 관계없이 더 부드러운 최적화, 더 빠른 수렴, 그리고 더 예측 가능한 훈련 동작을 구현하여 MuSGD가 YOLO26의 대규모 환경에서 훈련이 더 용이하고 신뢰성이 높아지는 핵심 요소로 작용합니다.

Ultralytics 훈련 혁신의 중요성

Ultralytics 훈련 혁신은 엔드투엔드(end-to-end), NMS, 에지 우선(edge-first) 설계와 같은 핵심 기능과 결합되어 모델의 훈련을 용이하게 하고 대규모 환경에서 더 높은 신뢰성을 제공합니다. 컴퓨터 비전 애플리케이션에 이것이 실제로 어떤 의미를 지니는지 궁금하실 수 있습니다.

그림 4. YOLO26의 주요 특징 살펴보기 (출처)

실제 적용 시 컴퓨터 비전을 실제 실행 환경에 도입하는 과정을 훨씬 용이하게 합니다. 모델 훈련이 더 예측 가능해지고, 다양한 규모에서 일관성 있게 확장되며, 새로운 데이터셋에 더 쉽게 적응할 수 있습니다. 이는 특히 순수 성능만큼이나 신뢰성과 효율성이 중요한 환경에서 실험과 배포 사이의 마찰을 줄여줍니다.

예를 들어, 로봇 공학 및 산업용 비전 애플리케이션에서는 환경, 센서 또는 작업이 변경됨에 따라 모델을 자주 재훈련해야 하는 경우가 많습니다. YOLO26을 사용하면 팀은 불안정한 훈련 실행이나 모델 크기 간 일관성 없는 동작에 대한 걱정 없이 더 빠르게 반복 작업을 수행할 수 있습니다.

주요 내용

신뢰할 수 있는 컴퓨터 비전 시스템은 추론 시 성능만큼이나 모델 훈련 방식에 달려 있습니다. YOLO26은 학습 신호 균형 조정, 소형 객체 처리 방식, 최적화 진행 방식을 개선하여 훈련 과정을 더욱 안정적이고 확장하기 쉽게 만듭니다. 이러한 신뢰성 있는 훈련에 대한 집중은 특히 에지 우선 애플리케이션에서 팀이 실험 단계에서 실제 배포 단계로 더 원활하게 전환할 수 있도록 지원합니다.

인공지능에 대해 배우고 싶으신가요? GitHub 저장소를 방문하여 더 알아보세요. 활발한 커뮤니티에 참여하여 물류 분야의 인공지능, 자동차 산업의 비전 인공지능 등 다양한 분야의 혁신을 확인해 보세요. 컴퓨터 비전을 지금 바로 시작하려면 라이선스 옵션을 살펴보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기