Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, почему Ultralytics работает быстрее на периферии и почему это важно для приложений компьютерного зрения нового поколения, которые требуют низкой задержки и высокой эффективности.
В начале этой недели Ultralytics представила Ultralytics — более быструю, легкую и компактную YOLO , призванную переопределить работу систем компьютерного зрения на периферии. YOLO26 поддерживает те же основные задачи компьютерного зрения, что и предыдущие YOLO , включая обнаружение объектов и сегментацию экземпляров.
Рис. 1. Пример использования YOLO26 для segment .
Определяющим отличием YOLO26 от предыдущих моделей является среда, в которой он был разработан для работы. Вместо оптимизации в первую очередь для облачных графических процессоров (GPU) или производительности, основанной на тестах, YOLO26 был разработан с нуля для реального развертывания на периферийных устройствах и встроенном оборудовании.
По мере перехода компьютерного зрения из сферы исследований в производство, реальность ограничений производительности становится все более очевидной. Крайние условия определяются жесткими ограничениями по задержкам, ограниченным объемом памяти, мощностью и тепловыми ограничениями, а также необходимостью предсказуемого поведения на различных платформах.
В этих условиях общая производительность системы зависит не только от скорости вычислений, но и от эффективности работы всего конвейера. Накладные расходы на постобработку, нагрузка на память и специфичные для платформы пути выполнения часто становятся узкими местами.
YOLO26 решает эти проблемы, используя более быстрый подход, ориентированный на периферию, который учитывает весь конвейер вывода, а не отдельные метрики модели. Сосредоточившись на оптимизации периферии, упрощении конвейера вывода и удалении ненужных этапов постобработки, YOLO26 обеспечивает повышение скорости, что приводит к снижению задержки и более надежному поведению в производственной среде.
В этой статье мы рассмотрим, как архитектурные решения YOLO26 приводят к реальному повышению производительности, и почему более высокая скорость работы на периферии кардинально меняет возможности приложений компьютерного зрения следующего поколения.
Реальность развертывания на периферии
Запуск моделей компьютерного зрения на периферии сильно отличается от их запуска в облаке. В облачных средах системы обычно имеют доступ к мощным графическим процессорам, большому объему памяти и стабильному оборудованию. На периферии эти предположения не действуют.
Большинство периферийных устройств работают на различных аппаратных архитектурах, а не на графических процессорах. Устройства обычно используют несколько специализированных процессоров для различных задач, которые оптимизированы для обеспечения эффективности и низкого энергопотребления, а не для обеспечения сырой вычислительной мощности облачных графических процессоров.
Задержка является еще одним серьезным ограничением. Пограничные системы часто работают в условиях жестких ограничений по времени реального времени, когда даже небольшие задержки могут повлиять на отзывчивость или безопасность. В таких случаях сквозная задержка имеет большее значение, чем скорость вывода. Модель может быть быстрой на бумаге, но все же не справляться с задачей после добавления постобработки и перемещения данных.
Память также играет важную роль. Многие периферийные устройства имеют ограниченный объем памяти и общие кэши. Большие промежуточные тензоры и неэффективное использование памяти могут замедлять работу систем, даже если сама модель является эффективной.
Ограничения по мощности и тепловыделению добавляют дополнительные ограничения. Пограничные устройства часто работают без активного охлаждения и в рамках фиксированного энергопотребления. Производительность должна быть эффективной и устойчивой, а не просто быстрой в короткие промежутки времени.
Вдобавок ко всему, развертывание на периферии требует согласованности. Модели должны вести себя одинаково на всех устройствах и в разных средах выполнения. Код, специфичный для конкретной платформы, или сложные этапы постобработки могут привести к появлению тонких различий, которые затрудняют развертывание и обслуживание систем.
Рис. 2. Обзор ограничений, связанных с развертыванием на границе. Изображение автора.
Эти ограничения определяют, что на самом деле означает производительность на периферии. Другими словами, производительность определяется всем конвейером, а не одним показателем.
Почему периферийное зрение требует другой модели производительности
Итак, как ограничения развертывания на периферии связаны с требованиями модели компьютерного зрения, построенной для периферии? Связь становится ясной, когда модели переходят из исследовательской среды в реальные системы.
В облачных средах производительность часто измеряется с помощью таких тестов, как скорость и точность вывода. На периферии эти показатели отражают лишь часть картины. Системы технического зрения обычно работают на разнородном оборудовании, где вывод нейронной сети переносится на специализированные ускорители, а другие части конвейера работают на процессорах общего назначения.
В этом контексте скорости модели недостаточно. Ключевую роль играет то, как работает вся система после развертывания модели. Модель может казаться быстрой сама по себе, но все равно не справляться с задачей, если постобработка, перемещение данных или специфические для платформы шаги добавляют нагрузку.
Именно поэтому для периферийного зрения требуется модель производительности, ориентированная на эффективность на системном уровне, а не на отдельные тесты. YOLO26 отражает этот сдвиг, уделяя особое внимание оптимизации с приоритетом периферийных устройств, упрощенному выводу и сквозному выполнению, созданному для реального развертывания.
Основа скорости: дизайн, ориентированный на преимущества
В периферийных системах производительность определяется тем, насколько хорошо модель соответствует фактической аппаратной архитектуре устройства. Проектирование с учетом периферийных систем в первую очередь гарантирует надежную работу систем технического зрения на реальных платформах, независимо от конкретного набора доступных процессоров.
Подход «edge-first» уделяет приоритетное внимание предсказуемому и эффективному выполнению на разнородном оборудовании, а не адаптации моделей, которые были оптимизированы для облачных графических процессоров после факта. Проще говоря, это означает предпочтение операций, которые хорошо переносятся на ускорители нейронных сетей, минимизацию не нейронных операций вне модели и сокращение ненужной сложности, которая может замедлить сквозное выполнение.
YOLO26 был разработан с учетом этих ограничений. Его архитектура ориентирована на стабильную производительность, а не на пиковую пропускную способность в идеальных условиях. Упрощая пути выполнения и устраняя ненужные вычисления, YOLO26 снижает накладные расходы по всей цепочке вывода и более эффективно использует доступное ускорение и иерархию памяти устройства.
Такой подход также повышает надежность. Оптимизация по принципу «Edge-first» обеспечивает более предсказуемую синхронизацию и меньшее количество всплесков производительности, что крайне важно для систем реального времени. Вместо того чтобы полагаться на специализированное оборудование или сложную постобработку для достижения скорости, YOLO26 делает акцент на эффективности всего процесса вывода.
Сквозное выведение и стоимость постобработки
Вы, возможно, задаетесь вопросом, что означает устранение ненужных этапов постобработки. Чтобы понять это, давайте сделаем шаг назад и посмотрим, как работают традиционные системы обнаружения объектов.
Во многих конвейерах обнаружения объектов вывод не заканчивается после того, как модель генерирует свои прогнозы. Вместо этого модель выдает большое количество перекрывающихся ограничительных рамок, которые затем необходимо отфильтровать и уточнить, прежде чем их можно будет использовать. Эта очистка происходит посредством этапов постобработки, которые выполняются вне самой модели.
Одним из наиболее распространенных этапов постобработки является немаксимальное подавление( NMS). NMS перекрывающиеся ограничительные рамки и сохраняет только наиболее достоверные обнаружения, удаляя дубликаты, относящиеся к одному и тому же объекту. Хотя этот подход является эффективным, он требует дополнительных вычислений после завершения инференции.
Рис. 3. Понимание NMS. Изображение автора.
В конечном итоге эта дополнительная работа обходится дорого. Этапы постобработки, такие как NMS , не NMS для специализированных ускорителей, используемых для вывода нейронных сетей, которые оптимизированы для плотных нейронных вычислений, а не для операций, требующих интенсивного управления или большого объема памяти.
В результате NMS дополнительную задержку и нагрузку на память, а его стоимость растет по мере увеличения количества обнаружений. Даже если сама модель работает быстро, NMS все равно NMS занимать значительную часть общего времени выполнения.
Постобработка также увеличивает сложность системы. Поскольку она находится вне модели, ее необходимо реализовывать отдельно для разных сред выполнения и аппаратных целей. Это часто приводит к появлению платформозависимых кодовых путей, несогласованному поведению на разных устройствах и более уязвимым конвейерам развертывания.
Самое главное, что постобработка нарушает концепцию истинной сквозной производительности. Измерение скорости вывода модели не отражает поведение системы в производственной среде. В конечном итоге важно общее время от ввода до конечного вывода, включая каждый шаг в конвейере.
В таких ситуациях постобработка становится скрытым препятствием на периферии. Она увеличивает задержку, потребляет CPU и усложняет развертывание, при этом находясь за пределами самой модели.
Как YOLO26 устраняет NMS почему это ускоряет работу
YOLO26 устраняет NMS, устраняя первопричину дублирования обнаружений, а не очищая их после вывода. Вместо того, чтобы генерировать множество пересекающихся прогнозов, которые необходимо фильтровать, модель обучена генерировать меньший набор достоверных окончательных обнаружений напрямую.
Это стало возможным благодаря изменению способа обучения распознаванию объектов во время тренировки. YOLO26 способствует более четкой однозначной связи между объектами и прогнозами, уменьшая избыточность у ее источника. В результате дублирующиеся обнаружения устраняются внутри самой сети, а не посредством внешней постобработки.
Удаление NMS непосредственное влияние на производительность пограничных устройств. Поскольку NMS с ускорителями нейронных сетей, его удаление сокращает перемещение памяти и позволяет избежать дорогостоящих этапов обработки, не связанных с нейронными сетями. Это снижает сквозную задержку и делает производительность более предсказуемой, особенно на пограничных устройствах, где постобработка может занять значительную часть общего времени выполнения.
Это также упрощает процесс вывода. Благодаря меньшему количеству шагов вне модели, сокращается объем перемещения данных и количество передач между компонентами. Результат модели уже является конечным результатом, что делает выполнение более предсказуемым.
Удаление DFL для обеспечения истинной сквозной производительности
Еще одним нововведением в YOLO26 является удаление Distribution Focal Loss (DFL), которое использовалось в более ранних YOLO для регрессии ограничивающей рамки. Вместо прямого прогнозирования одной координаты, модели, использующие DFL, изучали распределение возможных значений, а затем выводили окончательную ограничивающую рамку из этого распределения. Этот подход помог повысить точность локализации и стал важным шагом вперед в предыдущих поколениях.
Однако со временем DFL также привело к некоторым компромиссам. Прогнозирование распределений увеличивает вычислительную нагрузку и усложняет архитектуру модели, что может замедлить вывод на CPU и затруднить экспорт моделей в различные форматы развертывания. DFL также наложило фиксированные диапазоны регрессии, что может ограничить гибкость при обнаружении очень больших объектов.
YOLO26 удаляет DFL в рамках перехода к более простой, сквозной конструкции. Регрессия ограничивающей рамки переработана, чтобы стать более прямой, что позволяет сократить ненужные вычисления, сохранив при этом точность. Это изменение соответствует подходу YOLO26 NMS.
Откуда взялось 43% ускорение CPU
В тестах CPU YOLO26 демонстрирует явное превосходство по производительности над более ранними YOLO . По сравнению с Ultralytics YOLO11, модель YOLO26 nano обеспечивает до 43% более быстрое CPU , что имеет значительное влияние на реальные периферийные развертывания.
Рис. 4. Тестирование CPU YOLO26.
Это преимущество достигается за счет упрощения всего процесса вывода, а не оптимизации отдельного компонента. Сквозное выполнение устраняет накладные расходы на постобработку, более прямой метод регрессии ограничивающей рамки сокращает вычисления, а выбор конструкции CPU повышает эффективность выполнения на процессорах общего назначения.
В совокупности эти изменения сокращают задержку, снижают CPU и обеспечивают более быструю и стабильную производительность на реальном периферийном оборудовании.
Влияние YOLO26 на развертывание на периферии и экспорт
Преимущества YOLO26 не ограничиваются только более быстрым выводом. Благодаря упрощению модели и сокращению нагрузки на память, она стала проще в развертывании и более надежна при работе в периферийных средах.
Комплексная конструкция YOLO26 также упрощает экспорт. Благодаря меньшему количеству вспомогательных компонентов и отсутствию внешних этапов постобработки экспортированные модели являются полностью автономными. Это снижает зависимость от конкретной платформы и помогает обеспечить стабильное поведение в различных средах выполнения и на различных аппаратных целях.
На практике это означает, что YOLO26 можно более легко развертывать на периферийных устройствах, таких как камеры, роботы и встроенные системы, с использованием различных форматов экспорта. То, что вы экспортируете, — это то, что вы запускаете, с меньшим количеством шагов интеграции и меньшим риском отклонения при развертывании.
Более быстрое вычисление на границе сети позволяет использовать искусственный интеллект в робототехнике и промышленном видении
До сих пор мы рассматривали, как дизайн YOLO26, ориентированный на периферийные устройства, улучшает производительность на системном уровне. Однако реальное влияние заключается в том, как он упрощает интеграцию Vision AI в реальные приложения.
Например, в робототехнике и промышленности системы технического зрения часто работают в условиях жестких ограничений по времени. Решения должны приниматься быстро и последовательно, с использованием ограниченных вычислительных ресурсов и без подключения к облаку. С Ultralytics выполнение этих требований становится возможным.
Приложения, такие как навигация роботов и манипулирование объектами, выигрывают от более низкой задержки и более предсказуемого вывода, что позволяет роботам плавно реагировать на изменения в окружающей среде. Аналогичным образом, в промышленных условиях модели зрительного восприятия могут работать непосредственно на производственных линиях для detect , track и мониторинга процессов без задержек и дополнительной сложности.
Обеспечивая быстрое и надежное выведение на периферийном оборудовании, YOLO26 помогает сделать Vision AI естественной частью робототехники и промышленных систем, а не сложной задачей для внедрения и обслуживания.
Основные выводы
YOLO26 был создан для периферийных устройств, где реальные ограничения, такие как задержка, память и надежность, определяют возможности. Благодаря разработке модели с учетом CPU выполнения CPU, сквозного вывода и упрощенного развертывания, YOLO26 делает Vision AI практичным для интеграции в реальные системы. Этот подход, ориентированный на периферийные устройства, открывает широкий спектр применений, от робототехники и промышленного зрения до встроенного и локального искусственного интеллекта, где наиболее важны производительность и предсказуемость.