Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Как Ultralytics обучается более эффективно с помощью ProgLoss, STAL и MuSGD

Узнайте, как Ultralytics обеспечивает более надежное обучение с помощью прогрессивного балансирования потерь, присвоения меток с учетом небольших целей и оптимизатора MuSGD.

На прошлой неделе мы выпустили Ultralytics , установив новый стандарт для моделей компьютерного зрения, ориентированных на периферийные устройства и работающих в режиме реального времени. Подобно предыдущим YOLO Ultralytics YOLO , таким как Ultralytics YOLO11, YOLO26 поддерживает основные задачи компьютерного зрения, с которыми знакомы пользователи, включая обнаружение объектов, сегментацию экземпляров и оценку позы.

Рис. 1. Пример использования YOLO26 для segment на изображении.

Однако YOLO26 — это не просто постепенное обновление. Хотя поддерживаемые задачи могут показаться знакомыми, эта новая модель представляет собой инновационный шаг вперед в области обучения моделей компьютерного зрения. С YOLO26 акцент смещается с эффективности вывода на повышение стабильности обучения.

YOLO26 был разработан с учетом полного цикла обучения. Это означает более быструю конвергенцию, более надежные циклы обучения и стабильное поведение модели. Эти улучшения особенно важны в реальных рабочих процессах, где надежность обучения напрямую влияет на скорость итерации и развертывания моделей. 

Для этого в YOLO26 внедрены несколько целевых инноваций в области обучения, таких как прогрессивное уравнивание потерь (ProgLoss), присвоение меток с учетом небольших целей (STAL) и оптимизатор MuSGD. В совокупности эти изменения улучшают баланс потерь при обучении, присвоение меток и поведение оптимизации с течением времени.

В этой статье мы рассмотрим, как работает каждый из этих механизмов и почему они делают Ultralytics более простым в обучении и более надежным при масштабировании. Приступим!

Ultralytics : создан для более эффективного обучения, а не только для более быстрой работы

Ultralytics оптимизирует весь процесс вывода, устраняя необходимость в последующих этапах обработки, таких как подавление не максимальных значений. Вместо того, чтобы генерировать множество перекрывающихся прогнозов и затем фильтровать их, YOLO26 производит окончательные результаты обнаружения непосредственно из сети. 

Это делает YOLO26 сквозной моделью, в которой прогнозирование, устранение дубликатов и окончательные результаты обучаются внутри самой сети. Это упрощает развертывание и повышает эффективность вывода, а также формирует процесс обучения модели во время тренировки.

Рис. 2. YOLO26 обеспечивает современное сквозное инференсное вычисление NMS(Источник)

В такой комплексной системе обучение и вывод тесно связаны между собой. Поскольку нет внешнего этапа постобработки для корректировки прогнозов впоследствии, модель должна научиться принимать четкие и уверенные решения во время самого обучения. 

Это делает особенно важным согласование целей обучения и поведения при выводах. Любое несоответствие между тем, как обучается модель, и тем, как она используется при выводах, может привести к нестабильному обучению или более медленной конвергенции.

YOLO26 решает эту проблему, с самого начала ориентируя процесс обучения на реальные условия использования. Вместо того чтобы сосредоточиться только на скорости вывода, система обучения построена таким образом, чтобы поддерживать стабильное обучение в течение длительного времени, последовательную конвергенцию для моделей всех размеров, от Nano до Extra Large, и надежную работу с различными наборами данных.

Как две тренировочные головы улучшают обучение в Ultralytics

Одна из ключевых инноваций в обучении Ultralytics основана на подходе с двумя головками, использовавшемся в предыдущих YOLO . В моделях обнаружения объектов головка означает часть сети, ответственную за прогнозирование. 

Другими словами, детектирующие головки учатся предсказывать, где на изображении находятся объекты и что это за объекты. Они делают это путем регрессии координат ограничивающей рамки, то есть учатся оценивать положение и размер каждого объекта на входном изображении.

Во время обучения модель учится, минимизируя потери, которые являются численной мерой того, насколько ее прогнозы отличаются от правильных ответов или реальных данных. Меньшие потери означают, что прогнозы модели ближе к реальным данным, а большие потери указывают на более значительные ошибки. Расчет потерь определяет, как модель обновляет свои параметры во время обучения.

YOLO26 использует две головки обнаружения во время обучения, которые имеют одну и ту же базовую модель, но служат разным целям. Головка «один к одному» — это головка, используемая во время вывода. Она учится связывать каждый объект с единственным достоверным прогнозом, что необходимо для сквозной конструкции YOLO26 NMS.

Между тем, головка «один ко многим» используется только во время обучения. Она позволяет связывать несколько предсказаний с одним и тем же объектом, обеспечивая более плотный контроль. Этот более насыщенный сигнал обучения помогает стабилизировать обучение и повысить точность, особенно на ранних этапах.

В YOLO26 обе головки используют одинаковый расчет потерь для регрессии и классификации. В более ранних реализациях на протяжении всего обучения применялся фиксированный баланс между этими двумя сигналами потерь. 

Однако на практике важность каждой головы меняется со временем. Плотный надзор наиболее полезен на ранних этапах, в то время как согласование с поведением вывода становится более важным на более поздних этапах обучения. YOLO26 разработан с учетом этого понимания, что напрямую влияет на то, как он перебалансирует сигналы обучения по мере продвижения обучения.

Ultralytics использует прогрессивную балансировку потерь

Итак, как Ultralytics справляется с этими меняющимися потребностями обучения во время тренировки? Он использует прогрессивное уравнивание потерь, чтобы корректировать вес сигналов обучения с течением времени.

ProgLoss работает путем динамического изменения вклада каждой головы в общую потерю по мере продвижения обучения. На ранних этапах большее значение придается голове «один ко многим», чтобы стабилизировать обучение и улучшить запоминание. По мере продолжения обучения баланс постепенно смещается в сторону головы «один к одному», что позволяет более точно согласовать обучение с поведением вывода.

Этот постепенный переход позволяет YOLO26 обучаться в правильном порядке. Вместо того, чтобы заставлять модель оптимизировать конкурирующие цели одновременно, прогрессивное уравновешивание потерь придает приоритет наиболее полезному сигналу обучения на каждом этапе обучения. Результатом является более плавная конвергенция, меньшее количество нестабильных циклов обучения и более стабильная конечная производительность.

Как STAL помогает Ultralytics учиться на примере крошечных объектов

Еще одно интересное усовершенствование обучения в Ultralytics связано с тем, как модель присваивает цели обучения прогнозам, что называется присвоением меток. Этот процесс отвечает за сопоставление объектов реальной действительности с возможными прогнозами, которые часто называют якорями. 

Эти соответствия определяют, какие прогнозы подлежат контролю и влияют на потери. YOLO26 основан на существующем методе присвоения меток, называемом Task Alignment Learning (TAL), который был разработан для лучшего согласования классификации и локализации во время обучения.

Хотя TAL хорошо работает с большинством объектов, в ходе обучения выявилось одно важное ограничение. В процессе сопоставления очень маленькие объекты могли быть полностью пропущены. На практике объекты размером менее 8 пикселей в исходном изображении размером 640 пикселей часто не получали никаких анкерных назначений. В этом случае модель получает мало или вообще не получает контроля за этими объектами, что затрудняет обучение detect надежному detect .

Для решения этой проблемы в YOLO26 введено назначение меток с учетом небольших целей (STAL). STAL модифицирует процесс назначения, чтобы обеспечить, что небольшие объекты не игнорируются во время обучения. В частности, оно обеспечивает назначение как минимум четырех анкоров для объектов размером менее 8 пикселей. Это гарантирует, что даже крошечные объекты последовательно влияют на потери при обучении.

Усиливая контроль за небольшими целями, STAL повышает стабильность обучения и эффективность обнаружения в сценариях, где часто встречаются небольшие или удаленные объекты. Это улучшение особенно важно для приложений YOLO26 с приоритетом краев , таких как аэрофотосъемка, робототехника и системы Интернета вещей (IoT), где объекты часто бывают небольшими, удаленными или частично видимыми, и надежное обнаружение имеет решающее значение.

Ultralytics представляет оптимизатор MuSGD

Для обеспечения более стабильного и предсказуемого обучения Ultralytics также представляет новый оптимизатор под названием MuSGD. Этот оптимизатор предназначен для улучшения сходимости и надежности обучения в моделях сквозного обнаружения, особенно при увеличении размера модели и сложности обучения.

Чтобы нейронная сеть могла обучаться и, следовательно, соответствующим образом изменять веса, во время обучения мы вычисляем ошибку (также называемую «потерей»). Таким образом, модель измеряет степень неточности своих прогнозов с помощью значения потери, вычисляет градиенты, которые указывают, как должны изменяться ее параметры, а затем обновляет эти параметры, чтобы уменьшить ошибку. Стохастический градиентный спуск (SGD) — широко используемый оптимизатор, который выполняет эти обновления, делая обучение эффективным и масштабируемым.

Рис. 3. Стохастический градиентный спуск по сравнению с градиентным спуском (Источник)

MuSGD основывается на этой хорошо известной основе, включая идеи оптимизации, вдохновленные Muon, методом, используемым в обучении больших языковых моделей. На эти идеи повлияли недавние достижения, такие как Kimi K2 от Moonshot AI, который продемонстрировал улучшенное поведение при обучении за счет более структурированных обновлений параметров.

YOLO26 использует гибридную стратегию обновления. Некоторые параметры обновляются с помощью комбинации обновлений, вдохновленных Muon, и SGD, в то время как другие используют SGD . Это позволяет YOLO26 вводить дополнительную структуру в процесс оптимизации, сохраняя при этом надежность и свойства обобщения, которые сделали SGD .

Результатом является более плавная оптимизация, более быстрая конвергенция и более предсказуемое поведение обучения для моделей разных размеров, что делает MuSGD ключевым фактором, благодаря которому YOLO26 проще в обучении и более надежен в масштабе.

Значение инноваций Ultralytics в области обучения

Инновации Ultralytics в области обучения в сочетании с такими ключевыми функциями, как сквозной дизайн, NMS и приоритет периферийных устройств, делают модель более простой в обучении и более надежной при масштабировании. Вы, возможно, задаетесь вопросом, что это на самом деле означает для приложений компьютерного зрения.

Рис. 4. Обзор основных функций YOLO26 (Источник)

В действии это значительно упрощает внедрение компьютерного зрения в места, где оно фактически используется. Модели обучаются более предсказуемо, масштабируются более последовательно для разных размеров и проще адаптируются к новым наборам данных. Это снижает трение между экспериментами и внедрением, особенно в средах, где надежность и эффективность имеют такое же значение, как и сырая производительность.

Например, в робототехнике и приложениях промышленного зрения модели часто необходимо переобучать по мере изменения окружающей среды, датчиков или задач. С YOLO26 команды могут быстрее выполнять итерации, не беспокоясь о нестабильном выполнении обучения или несогласованном поведении моделей разных размеров.

Основные выводы

Надежность систем компьютерного зрения зависит не только от того, как модели обучаются, но и от того, как они работают во время вывода. Благодаря улучшению баланса сигналов обучения, обработки мелких объектов и оптимизации, YOLO26 делает обучение более стабильным и простым для масштабирования. Такой акцент на надежность обучения помогает командам плавно переходить от экспериментов к реальному внедрению, особенно в приложениях, ориентированных на периферийные устройства.

Хотите узнать больше об искусственном интеллекте? Посетите наш репозиторий GitHub, чтобы узнать больше. Присоединяйтесь к нашему активному сообществу и узнайте о нововведениях в таких секторах, как искусственный интеллект в логистике и Vision AI в автомобильной промышленности. Чтобы начать работу с компьютерным зрением уже сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно