Обрезка и квантование в компьютерном зрении

Пограничные устройства становятся все более распространенными с развитием технологий. От смарт-часов, track пульс, до воздушных дронов, следящих за улицами, - пограничные системы могут обрабатывать данные в режиме реального времени внутри самого устройства.

Этот метод часто быстрее и безопаснее, чем отправка данных в облако, особенно для приложений, работающих с персональными данными, таких как распознавание номерных знаков или отслеживание жестов. Это примеры компьютерного зрения — раздела искусственного интеллекта (ИИ), который позволяет машинам интерпретировать и понимать визуальную информацию.

Рис. 1. Пример обнаружения номерного знака. (Источник)

‍

Однако важно учитывать, что такие приложения требуют модели Vision AI, способные справляться с большими вычислительными нагрузками, используя минимум ресурсов и работая независимо. Большинство моделей компьютерного зрения разрабатываются для высокопроизводительных систем, что делает их менее пригодными для непосредственного развертывания на периферийных устройствах.

Чтобы устранить этот пробел, разработчики часто применяют целевые оптимизации, которые адаптируют модель для эффективной работы на небольшом оборудовании. Эти корректировки имеют решающее значение для реальных периферийных развертываний, где память и вычислительная мощность ограничены.

Интересно, что модели компьютерного зрения, такие как Ultralytics YOLO11 уже разработаны с учетом краевой эффективности, что делает их идеальными для задач реального времени. Однако их производительность можно еще больше повысить, используя такие методы оптимизации модели, как обрезка и квантование, что позволит еще быстрее делать выводы и снизить потребление ресурсов на устройствах с ограниченными возможностями.

В этой статье мы подробно рассмотрим, что такое обрезка и квантование, как они работают и как они могут помочь моделям YOLO работать в реальных пограничных развертываниях. Давайте начнем!

Прунинг и квантование: основные методы оптимизации моделей

При подготовке моделей Vision AI для развертывания на периферийных устройствах одной из ключевых целей является сделать модель легкой и надежной, не жертвуя при этом производительностью. Это часто включает в себя уменьшение размера модели и вычислительных требований, чтобы она могла эффективно работать на оборудовании с ограниченной памятью, мощностью или вычислительной мощностью. Два распространенных способа сделать это - это прунинг и квантование.

Прунинг (разрежение) — это метод оптимизации AI-моделей, который помогает сделать нейронные сети меньше и эффективнее. Во многих случаях части модели, такие как определенные соединения или узлы, не вносят большого вклада в ее окончательные прогнозы. Прунинг работает путем выявления и удаления этих менее важных частей, что уменьшает размер модели и ускоряет ее работу.

С другой стороны, квантование — это метод оптимизации, который снижает точность чисел, используемых моделью. Вместо того чтобы полагаться на высокоточные 32-битные числа с плавающей запятой, модель переключается на меньшие и более эффективные форматы, такие как 8-битные целые числа. Это изменение помогает снизить использование памяти и ускорить вывод — процесс, в котором модель делает прогнозы.

Рис. 2. Обзор методов pruning (отсечения) и quantization (квантования). (Источник)

‍

Как работают прунинг и квантование

Теперь, когда у нас есть лучшее понимание того, что такое pruning и квантование, давайте рассмотрим, как они оба работают.

Прунинг выполняется с использованием процесса, известного как анализ чувствительности. Он определяет, какие части моделей нейронных сетей, такие как определенные веса, нейроны или каналы, вносят наименьший вклад в окончательный прогноз. Эти части можно удалить с минимальным влиянием на точность. После прунинга модель обычно переобучается для точной настройки ее производительности. Этот цикл можно повторять для поиска правильного баланса между ее размером и точностью.

Между тем, квантование модели фокусируется на том, как модель обрабатывает данные. Оно начинается с калибровки, когда модель запускается на образце данных, чтобы узнать диапазон значений, которые ей необходимо обработать. Затем эти значения преобразуются из 32-битного формата с плавающей запятой в форматы с меньшей точностью, такие как 8-битные целые числа.

Рис. 3. Квантование помогает уменьшить размер и сложность модели. (Источник)

‍

Существует несколько инструментов, облегчающих использование обрезки и квантования в реальных проектах ИИ. Большинство фреймворков ИИ, таких как PyTorch и TensorFlow, содержат встроенную поддержку этих методов оптимизации, что позволяет разработчикам интегрировать их непосредственно в процесс развертывания модели.

После оптимизации модели такие инструменты, как ONNX Runtime, помогут эффективно запустить ее на различных аппаратных платформах, таких как серверы, настольные компьютеры и пограничные устройства. Кроме того, Ultralytics предлагает интеграцию, позволяющую экспортировать модели YOLO в форматы, пригодные для квантования, что упрощает уменьшение размера модели и повышает производительность.

Обзор оптимизации модели Ultralytics YOLO

Модели Ultralytics YOLO , такие как YOLO11 , широко известны благодаря быстрому, одноэтапному обнаружению объектов, что делает их идеальными для задач ИИ в реальном времени. Они уже разработаны как легкие и достаточно эффективные для пограничного развертывания. Однако слои, отвечающие за обработку визуальных признаков, называемые конволюционными слоями, все еще могут требовать значительных вычислительных мощностей во время выводов.

Вы можете задаться вопросом: если YOLO11 уже оптимизирован для использования на границе, зачем ему нужна дополнительная оптимизация? Проще говоря, не все краевые устройства одинаковы. Некоторые работают на очень минимальном оборудовании, например, на крошечных встроенных процессорах, которые потребляют меньше энергии, чем обычная светодиодная лампочка.

В этих случаях даже такая оптимизированная модель, как YOLO11 , нуждается в дополнительной оптимизации, чтобы гарантировать плавную и надежную работу. Такие методы, как обрезка и квантование, помогают уменьшить размер модели и ускорить вывод без существенного влияния на точность, что делает их идеальными для таких ограниченных сред.

Чтобы облегчить применение этих методов оптимизации, Ultralytics поддерживает различные интеграции, которые можно использовать для экспорта моделей YOLO в различные форматы, такие как ONNX, TensorRT, OpenVINO, CoreML и PaddlePaddle. Каждый формат предназначен для работы с определенными типами оборудования и средами развертывания.

Например, ONNX часто используется в рабочих процессах квантования благодаря своей совместимости с широким спектром инструментов и платформ. TensorRT, с другой стороны, хорошо оптимизирован для устройств NVIDIA и поддерживает вывод с низкой точностью с помощью INT8, что делает его идеальным для высокоскоростного развертывания на граничных GPU.

Эффективные примеры использования оптимизации моделиYOLO от Ultralytics

Поскольку компьютерное зрение продолжает распространяться на различные реальные приложения, оптимизированные модели YOLO позволяют выполнять такие задачи, как обнаружение объектов, сегментация объектов и отслеживание объектов, на более компактном и быстром оборудовании. Далее мы рассмотрим несколько примеров использования, когда обрезка и квантование делают эти задачи компьютерного зрения более эффективными и практичными.

Интеллектуальное наблюдение с помощью YOLO11

Многие промышленные помещения, а также общественные зоны зависят от мониторинга в режиме реального времени, чтобы оставаться в безопасности. Такие места, как транспортные станции, производственные площадки и крупные открытые объекты, нуждаются в системах Vision AI, способных быстро и точно detect людей и транспортные средства. Часто эти места работают в условиях ограниченного подключения и аппаратных ограничений, что затрудняет развертывание крупных моделей.

В таких случаях оптимизированная модель Vision AI, такая как YOLO11 , станет отличным решением. Благодаря компактным размерам и высокой производительности она идеально подходит для работы на маломощных пограничных устройствах, таких как встроенные камеры или интеллектуальные датчики. Эти модели могут обрабатывать визуальные данные непосредственно на устройстве, позволяя в режиме реального времени обнаруживать нарушения безопасности, несанкционированный доступ или аномальную активность, не прибегая к постоянному доступу к облаку.

Рис. 4. YOLO11 можно использовать для мониторинга общественных мест, например станций метро.

‍

Повышение безопасности на строительных площадках с помощью YOLO11

Строительные площадки — это динамичные и непредсказуемые среды, заполненные тяжелой техникой, перемещающимися рабочими и постоянной активностью. Условия могут быстро меняться из-за сдвига графиков, перемещения оборудования или даже внезапных изменений погоды. В такой динамичной обстановке безопасность работников может казаться постоянной проблемой.

Мониторинг в режиме реального времени играет важнейшую роль, но традиционные системы часто полагаются на облачный доступ или дорогостоящее оборудование, которое может быть нецелесообразно использовать на месте. Именно здесь могут оказаться полезными такие модели, как YOLO11 . YOLO11 может быть оптимизирована для работы на небольших, эффективных пограничных устройствах, которые работают непосредственно на объекте, не требуя подключения к Интернету.

Например, рассмотрим крупную строительную площадку, такую как расширение автомагистрали, которая занимает несколько гектаров. В таких условиях вручную отслеживать каждый автомобиль или единицу техники может быть сложно и долго. Дрон, оснащенный камерой и оптимизированной моделью YOLO11 , может помочь, автоматически обнаруживая и отслеживая транспортные средства, контролируя транспортный поток и выявляя проблемы безопасности, такие как несанкционированный доступ или небезопасное поведение водителя.

Рис. 5. Анализ изображений с дронов со строительной площадки. (Источник)

‍

Плюсы и минусы прунинга и квантования в машинном зрении

Вот некоторые ключевые преимущества, которые предлагают методы оптимизации моделей компьютерного зрения, такие как прунинг и квантование:

Экономически эффективное развертывание: Меньшие и более эффективные модели могут снизить потребность в дорогостоящем высокопроизводительном оборудовании, что делает ИИ более доступным и масштабируемым для различных вариантов использования.
Более низкая задержка: Упрощая архитектуру модели и уменьшая вычислительные издержки, эти методы могут помочь достичь более быстрого времени отклика в приложениях реального времени.
Энергоэффективность: Снижение вычислительной нагрузки также снижает энергопотребление, что особенно полезно для систем с батарейным питанием или мобильных систем.

Хотя обрезка и квантование предлагают много преимуществ, они также сопряжены с определенными компромиссами, которые разработчики должны учитывать при оптимизации моделей. Вот некоторые ограничения, которые следует иметь в виду:

Точность компромиссы: Если обрезка слишком агрессивна или используется очень низкое квантование битов, точность модели, измеряемая такими метриками, как mAP, может снизиться.
Аппаратные ограничения: Не все устройства одинаково хорошо поддерживают форматы с пониженной точностью, такие как INT8. Это может ограничивать возможности развертывания оптимизированной модели.
Сложность реализации: Достижение хороших результатов часто требует тщательной настройки, специфичной для модели. Разработчикам может потребоваться переобучить модель и провести обширное тестирование для поддержания производительности при одновременном повышении эффективности.

Основные выводы

Обрезка и квантование - полезные приемы, которые помогают моделям YOLO лучше работать на граничных устройствах. Они уменьшают размер модели, снижают ее вычислительные потребности и ускоряют прогнозирование, причем без заметной потери точности.

Эти методы оптимизации также дают разработчикам возможность настраивать модели для различных типов оборудования без необходимости их полной перестройки. Благодаря некоторой настройке и тестированию становится легче применять Vision AI в реальных ситуациях.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий GitHub, чтобы узнать больше об ИИ. Готовы начать свои проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в сельском хозяйстве и Vision AI в здравоохранении, посетив страницы с нашими решениями!

Прунинг и квантование в компьютерном зрении: краткое руководство

Прунинг и квантование: основные методы оптимизации моделей

Как работают прунинг и квантование

Обзор оптимизации модели Ultralytics YOLO

Эффективные примеры использования оптимизации моделиYOLO от Ultralytics

Интеллектуальное наблюдение с помощью YOLO11

‍

Повышение безопасности на строительных площадках с помощью YOLO11

Плюсы и минусы прунинга и квантования в машинном зрении

Основные выводы

Читать больше в этой категории

Что такое дистилляция наборов данных? Краткий обзор

Самостоятельное обучение для удаления шумов: пошаговое разъяснение

Что такое сопоставление изображений в Vision AI? Краткое введение

Давайте строить будущее
ИИ вместе!

Прунинг и квантование в компьютерном зрении: краткое руководство

Прунинг и квантование: основные методы оптимизации моделей

Как работают прунинг и квантование

Обзор оптимизации модели Ultralytics YOLO

Эффективные примеры использования оптимизации моделиYOLO от Ultralytics

Интеллектуальное наблюдение с помощью YOLO11

‍

Повышение безопасности на строительных площадках с помощью YOLO11

Плюсы и минусы прунинга и квантования в машинном зрении

Основные выводы

Читать больше в этой категории

Что такое дистилляция наборов данных? Краткий обзор

Самостоятельное обучение для удаления шумов: пошаговое разъяснение

Что такое сопоставление изображений в Vision AI? Краткое введение

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!