Ultralytics YOLO

Как Ultralytics YOLO26 обучается умнее с помощью ProgLoss, STAL и MuSGD

Узнай, как Ultralytics YOLO26 обучается более надежно с помощью ProgLoss, STAL и оптимизатора MuSGD.

АБАбирами Вина

5 min readJanuary 19, 2026

Инновации в обучении Ultralytics YOLO26: ProgLoss, STAL и MuSGD

На прошлой неделе мы выпустили Ultralytics YOLO26, установив новый стандарт для моделей компьютерного зрения в реальном времени, ориентированных на edge-устройства. Подобно предыдущим моделям Ultralytics YOLO, таким как Ultralytics YOLO11, YOLO26 поддерживает основные задачи компьютерного зрения, знакомые пользователям, включая обнаружение объектов, сегментацию экземпляров и оценку поз.

Пример сегментации объектов с помощью YOLO26 на изображении

Рис. 1. Пример использования YOLO26 для сегментации объектов на изображении.

Однако YOLO26 — это не просто инкрементальное обновление. Хотя поддерживаемые задачи могут показаться знакомыми, эта новая модель представляет собой инновационный шаг вперед в том, как обучаются модели компьютерного зрения. В YOLO26 фокус смещается за пределы эффективности вывода, делая обучение более стабильным.

Модель YOLO26 была разработана с учетом всего цикла обучения. Это означает более быстрое схождение, более надежные прогоны обучения и стабильное поведение модели. Эти улучшения особенно важны в реальных рабочих процессах, где надежность обучения напрямую влияет на то, как быстро можно итерировать и развертывать модели.

Для этого YOLO26 представляет несколько целевых инноваций в обучении, таких как прогрессивная балансировка потерь (ProgLoss), назначение меток с учетом малых целей (STAL) и оптимизатор MuSGD. Вместе эти изменения улучшают балансировку функции потерь, процесс назначения меток и поведение оптимизации со временем.

В этой статье мы разберем, как работает каждый из этих механизмов и почему они делают Ultralytics YOLO26 проще в обучении и надежнее при масштабировании. Давай начнем!

Link to this sectionUltralytics YOLO26: создана для более умного обучения, а не только для ускорения работы#

Ultralytics YOLO26 естественным образом оптимизирует весь конвейер вывода, устраняя зависимость от этапов постобработки, таких как NMS. Вместо создания множества перекрывающихся предсказаний и их последующей фильтрации, YOLO26 выдает финальные результаты обнаружения непосредственно из сети.

Это делает YOLO26 сквозной (end-to-end) моделью, где предсказание, разрешение дубликатов и окончательные результаты обучения происходят внутри самой сети. Это упрощает развертывание и повышает эффективность вывода, одновременно формируя процесс обучения модели.

Современный комплексный инференс YOLO26 без использования NMS

Рис. 2. YOLO26 обеспечивает передовой сквозной вывод без NMS (Источник)

В такой сквозной системе обучение и вывод тесно связаны. Поскольку нет внешнего этапа постобработки для корректировки предсказаний, модель должна учиться принимать четкие и уверенные решения непосредственно во время обучения.

Это делает согласованность между целями обучения и поведением при выводе особенно важной. Любое несоответствие между тем, как модель обучается и как она используется во время вывода, может привести к нестабильному обучению или более медленному схождению.

YOLO26 решает эту задачу, выстраивая процесс обучения вокруг реального использования с самого начала. Вместо того чтобы фокусироваться только на скорости вывода, система обучения спроектирована так, чтобы поддерживать стабильное обучение в течение длительных прогонов, постоянное схождение для разных размеров моделей (от Nano до Extra Large) и надежную работу на разнообразных наборах данных.

Link to this sectionКак две обучающие головы улучшают обучение в Ultralytics YOLO26#

Одна из ключевых инноваций в обучении Ultralytics YOLO26 опирается на подход с двумя обучающими головами, использовавшийся в предыдущих моделях YOLO. В моделях обнаружения объектов «голова» (head) относится к той части сети, которая отвечает за предсказания.

Другими словами, головы обнаружения учатся предсказывать, где в изображении расположены объекты и что это за объекты. Они делают это через регрессию координат ограничивающих рамок (BBox), что означает, что они учатся оценивать положение и размер каждого объекта на входном изображении.

Во время обучения модель учится, минимизируя функцию потерь (loss) — числовую меру того, насколько ее предсказания далеки от правильных ответов (ground truth). Более низкая функция потерь означает, что предсказания модели ближе к истине, а более высокая указывает на большие ошибки. Расчет потерь направляет обновление параметров модели во время обучения.

YOLO26 использует во время обучения две головы обнаружения, которые используют одну и ту же базовую модель, но выполняют разные задачи. Голова «один-к-одному» используется во время вывода. Она учится сопоставлять каждый объект с одним единственным уверенным предсказанием, что необходимо для сквозной архитектуры YOLO26 без использования NMS.

Тем временем голова «один-ко-многим» используется только во время обучения. Она позволяет ассоциировать несколько предсказаний с одним и тем же объектом, обеспечивая более плотный надзор. Этот более богатый обучающий сигнал помогает стабилизировать процесс обучения и улучшить точность, особенно на ранних этапах.

В YOLO26 обе головы используют одинаковый расчет функции потерь для регрессии рамок и классификации. Более ранние реализации применяли фиксированный баланс между этими двумя сигналами потерь на протяжении всего обучения.

Однако на практике важность каждой головы меняется со временем. Плотный надзор наиболее полезен на раннем этапе, в то время как согласованность с поведением вывода становится более важной позже. YOLO26 разработана с учетом этого понимания, что напрямую влияет на то, как она перебалансирует обучающие сигналы по ходу обучения.

Link to this sectionUltralytics YOLO26 использует прогрессивную балансировку потерь (ProgLoss)#

Итак, как Ultralytics YOLO26 справляется с меняющимися потребностями в обучении? Она использует прогрессивную балансировку потерь, чтобы корректировать вес обучающих сигналов с течением времени.

ProgLoss работает за счет динамического изменения того, какой вклад каждая голова вносит в общую функцию потерь по мере прогресса обучения. На ранних этапах больше веса отдается голове «один-ко-многим» для стабилизации обучения и улучшения полноты (recall). По мере продолжения обучения баланс постепенно смещается в сторону головы «один-к-одному», приближая обучение к поведению при выводе.

Этот постепенный переход позволяет YOLO26 обучаться в правильной последовательности. Вместо того чтобы заставлять модель оптимизировать конфликтующие цели одновременно, прогрессивная балансировка потерь приоритизирует наиболее полезный обучающий сигнал на каждом этапе. Результат — более плавное схождение, меньше нестабильных прогонов обучения и более стабильная итоговая производительность.

Link to this sectionКак STAL помогает Ultralytics YOLO26 учиться на крошечных объектах#

Еще одно интересное улучшение обучения в Ultralytics YOLO26 связано с тем, как модель назначает цели обучения предсказаниям — процесс, известный как назначение меток. Он отвечает за сопоставление реальных объектов с кандидатами-предсказаниями, которые часто называют анкорами (anchors).

Эти соответствия определяют, какие предсказания получают надзор и вносят вклад в функцию потерь. YOLO26 развивает существующий метод назначения меток, называемый Task Alignment Learning (TAL), который был разработан для лучшего согласования классификации и локализации при обучении.

Хотя TAL хорошо работает для большинства объектов, обучение выявило важное ограничение. В процессе сопоставления очень маленькие объекты могли быть полностью проигнорированы. На практике объекты меньше 8 пикселей на 640-пиксельном изображении часто не получали никаких назначений анкоров. Когда это происходит, модель получает мало или вообще не получает надзора для таких объектов, из-за чего ей трудно научиться их обнаруживать.

Чтобы решить эту проблему, YOLO26 представляет метод Small-Target-Aware Label Assignment (STAL). STAL модифицирует процесс назначения, чтобы гарантировать, что маленькие объекты не игнорируются при обучении. В частности, он устанавливает минимум четыре назначения анкоров для объектов меньше 8 пикселей. Это гарантирует, что даже крошечные объекты постоянно вносят вклад в функцию потерь.

Усиливая надзор для маленьких целей, STAL улучшает стабильность обучения и эффективность обнаружения в сценариях, где часто встречаются маленькие или удаленные объекты. Это улучшение особенно важно для ориентированных на edge-устройства приложений YOLO26, таких как аэрофотосъемка, робототехника и системы Интернета вещей (IoT), где объекты часто бывают маленькими, удаленными или частично скрытыми, и надежность обнаружения критически важна.

Link to this sectionUltralytics YOLO26 представляет оптимизатор MuSGD#

Для поддержки более стабильного и предсказуемого обучения Ultralytics YOLO26 также представляет новый оптимизатор под названием MuSGD. Этот оптимизатор разработан для улучшения схождения и надежности обучения в сквозных моделях обнаружения, особенно по мере увеличения размера модели и сложности обучения.

Чтобы нейронная сеть могла учиться и, как следствие, изменять веса во время обучения, мы вычисляем ошибку (также называемую «потерей» или loss). Таким образом, модель измеряет, насколько ошибочны ее предсказания, вычисляет градиенты, которые указывают, как должны измениться параметры, а затем обновляет их для уменьшения ошибки. Stochastic Gradient Descent (SGD) — это широко используемый оптимизатор, который выполняет эти обновления, делая обучение эффективным и масштабируемым.

Стохастический градиентный спуск против градиентного спуска

Рис. 3. Стохастический градиентный спуск в сравнении с градиентным спуском (Источник)

MuSGD опирается на этот знакомый фундамент, внедряя идеи оптимизации, вдохновленные Muon — методом, используемым при обучении больших языковых моделей. На эти идеи повлияли недавние достижения, такие как Kimi K2 от Moonshot AI, который продемонстрировал улучшенное поведение при обучении благодаря более структурированным обновлениям параметров.

YOLO26 использует гибридную стратегию обновления. Некоторые параметры обновляются с помощью комбинации обновлений, вдохновленных Muon, и SGD, в то время как другие используют только SGD. Это позволяет YOLO26 внедрить дополнительную структуру в процесс оптимизации, сохраняя при этом надежность и свойства обобщения, которые сделали SGD эффективным.

Результатом является более плавная оптимизация, быстрое схождение и более предсказуемое поведение при обучении для разных размеров моделей, что делает MuSGD ключевой частью того, почему YOLO26 проще обучать и она надежнее при масштабировании.

Link to this sectionЗначимость инноваций в обучении Ultralytics YOLO26#

Инновации в обучении Ultralytics YOLO26 в сочетании с ключевыми функциями, такими как сквозная архитектура без NMS и ориентация на edge-устройства, делают модель проще в обучении и надежнее при масштабировании. Возможно, тебе интересно, что это на самом деле означает для приложений компьютерного зрения.

Обзор ключевых функций YOLO26

Рис. 4. Обзор ключевых функций YOLO26 (Источник)

На практике это значительно упрощает внедрение компьютерного зрения непосредственно туда, где оно будет работать. Модели обучаются более предсказуемо, масштабируются более последовательно по размерам и проще адаптируются к новым наборам данных. Это снижает трения между этапом экспериментов и развертыванием, особенно в средах, где надежность и эффективность важны не меньше, чем чистая производительность.

Например, в робототехнике и промышленных задачах компьютерного зрения модели часто нужно переобучать по мере изменения сред, датчиков или задач. С YOLO26 команды могут итерировать быстрее, не беспокоясь о нестабильных прогонах обучения или несогласованном поведении моделей разных размеров.

Link to this sectionОсновные выводы#

Надежные системы компьютерного зрения зависят как от того, как модели обучаются, так и от того, как они работают во время вывода. Улучшая способы балансировки обучающих сигналов, обработки маленьких объектов и прогресса оптимизации, YOLO26 делает обучение более стабильным и легким для масштабирования. Этот фокус на надежном обучении помогает командам плавнее переходить от экспериментов к реальному развертыванию, особенно в приложениях, ориентированных на edge-устройства.

Хочешь узнать больше об ИИ? Посети наш репозиторий GitHub, чтобы открыть для себя больше. Присоединяйся к нашему активному сообществу и узнавай об инновациях в таких секторах, как ИИ в логистике и ИИ машинного зрения в автомобильной индустрии. Чтобы начать работать с компьютерным зрением уже сегодня, ознакомься с нашими вариантами лицензирования.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Как Ultralytics YOLO26 обучается умнее с помощью ProgLoss, STAL и MuSGD

Link to this sectionUltralytics YOLO26: создана для более умного обучения, а не только для ускорения работы#

Link to this sectionКак две обучающие головы улучшают обучение в Ultralytics YOLO26#

Link to this sectionUltralytics YOLO26 использует прогрессивную балансировку потерь (ProgLoss)#

Link to this sectionКак STAL помогает Ultralytics YOLO26 учиться на крошечных объектах#

Link to this sectionUltralytics YOLO26 представляет оптимизатор MuSGD#

Link to this sectionЗначимость инноваций в обучении Ultralytics YOLO26#

Link to this sectionОсновные выводы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!