Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Прунинг и квантование в компьютерном зрении: краткое руководство

Абирами Вина

5 мин чтения

11 июля 2025 г.

Узнайте, почему прунинг и квантование необходимы для оптимизации моделей компьютерного зрения и обеспечения более высокой производительности на периферийных устройствах.

Периферийные устройства становятся все более распространенными с развитием технологий. От умных часов, которые отслеживают ваш сердечный ритм, до воздушных дронов, которые контролируют улицы, периферийные системы могут обрабатывать данные в режиме реального времени локально внутри самого устройства. 

Этот метод часто быстрее и безопаснее, чем отправка данных в облако, особенно для приложений, работающих с персональными данными, таких как распознавание номерных знаков или отслеживание жестов. Это примеры компьютерного зрения — раздела искусственного интеллекта (ИИ), который позволяет машинам интерпретировать и понимать визуальную информацию.

Рис. 1. Пример обнаружения номерного знака. (Источник)

Однако важно учитывать, что такие приложения требуют модели Vision AI, способные справляться с большими вычислительными нагрузками, используя минимум ресурсов и работая независимо. Большинство моделей компьютерного зрения разрабатываются для высокопроизводительных систем, что делает их менее пригодными для непосредственного развертывания на периферийных устройствах. 

Чтобы устранить этот пробел, разработчики часто применяют целевые оптимизации, которые адаптируют модель для эффективной работы на небольшом оборудовании. Эти корректировки имеют решающее значение для реальных периферийных развертываний, где память и вычислительная мощность ограничены. 

Интересно, что модели компьютерного зрения, такие как Ultralytics YOLO11, уже разработаны с учетом эффективности на периферии, что делает их отличными для задач, выполняемых в реальном времени. Однако их производительность можно еще больше повысить с помощью методов оптимизации моделей, таких как отсечение и квантование, что позволяет еще быстрее выполнять вывод и снизить использование ресурсов на устройствах с ограниченными возможностями.

В этой статье мы подробно рассмотрим, что такое прунинг и квантование, как они работают и как они могут помочь моделям YOLO работать в реальных условиях периферийных вычислений. Начнем!

Прунинг и квантование: основные методы оптимизации моделей

При подготовке моделей Vision AI для развертывания на периферийных устройствах одной из ключевых целей является сделать модель легкой и надежной, не жертвуя при этом производительностью. Это часто включает в себя уменьшение размера модели и вычислительных требований, чтобы она могла эффективно работать на оборудовании с ограниченной памятью, мощностью или вычислительной мощностью. Два распространенных способа сделать это - это прунинг и квантование.

Прунинг (разрежение) — это метод оптимизации AI-моделей, который помогает сделать нейронные сети меньше и эффективнее. Во многих случаях части модели, такие как определенные соединения или узлы, не вносят большого вклада в ее окончательные прогнозы. Прунинг работает путем выявления и удаления этих менее важных частей, что уменьшает размер модели и ускоряет ее работу.

С другой стороны, квантование — это метод оптимизации, который снижает точность чисел, используемых моделью. Вместо того чтобы полагаться на высокоточные 32-битные числа с плавающей запятой, модель переключается на меньшие и более эффективные форматы, такие как 8-битные целые числа. Это изменение помогает снизить использование памяти и ускорить вывод — процесс, в котором модель делает прогнозы.

Рис. 2. Обзор методов pruning (отсечения) и quantization (квантования). (Источник)

Как работают прунинг и квантование

Теперь, когда у нас есть лучшее понимание того, что такое pruning и квантование, давайте рассмотрим, как они оба работают. 

Прунинг выполняется с использованием процесса, известного как анализ чувствительности. Он определяет, какие части моделей нейронных сетей, такие как определенные веса, нейроны или каналы, вносят наименьший вклад в окончательный прогноз. Эти части можно удалить с минимальным влиянием на точность. После прунинга модель обычно переобучается для точной настройки ее производительности. Этот цикл можно повторять для поиска правильного баланса между ее размером и точностью.

Между тем, квантование модели фокусируется на том, как модель обрабатывает данные. Оно начинается с калибровки, когда модель запускается на образце данных, чтобы узнать диапазон значений, которые ей необходимо обработать. Затем эти значения преобразуются из 32-битного формата с плавающей запятой в форматы с меньшей точностью, такие как 8-битные целые числа.

Рис. 3. Квантование помогает уменьшить размер и сложность модели. (Источник)

Существует несколько инструментов, которые упрощают использование pruning (отсечения) и quantization (квантования) в реальных AI-проектах. Большинство AI-фреймворков, такие как PyTorch и TensorFlow, включают встроенную поддержку этих методов оптимизации, что позволяет разработчикам интегрировать их непосредственно в процесс развертывания модели. 

После оптимизации модели такие инструменты, как ONNX Runtime, могут помочь эффективно запускать ее на различных аппаратных платформах, таких как серверы, настольные компьютеры и периферийные устройства. Кроме того, Ultralytics предлагает интеграции, которые позволяют экспортировать модели YOLO в форматах, подходящих для квантования, что упрощает уменьшение размера модели и повышение производительности.

Обзор оптимизации моделей Ultralytics YOLO

Модели Ultralytics YOLO, такие как YOLO11, широко известны своим быстрым одношаговым обнаружением объектов, что делает их идеальными для задач Vision AI в реальном времени. Они уже разработаны как достаточно легкие и эффективные для развертывания на периферии. Однако слои, отвечающие за обработку визуальных признаков, называемые сверточными слоями, все еще могут требовать значительной вычислительной мощности во время логического вывода.

Вам может быть интересно: если YOLO11 уже оптимизирована для использования на периферии, зачем ей дальнейшая оптимизация? Проще говоря, не все периферийные устройства одинаковы. Некоторые работают на очень минимальном оборудовании, например, на крошечных встроенных процессорах, которые потребляют меньше энергии, чем стандартная светодиодная лампочка. 

В этих случаях даже оптимизированной модели, такой как YOLO11, требуется дополнительная оптимизация, чтобы гарантировать плавную и надежную работу. Такие методы, как pruning (отсечение) и quantization (квантование), помогают уменьшить размер модели и ускорить вывод без значительного влияния на точность, что делает их идеальными для таких ограниченных сред.

Чтобы упростить применение этих методов оптимизации, Ultralytics поддерживает различные интеграции, которые можно использовать для экспорта моделей YOLO в различные форматы, такие как ONNX, TensorRT, OpenVINO, CoreML и PaddlePaddle. Каждый формат разработан для эффективной работы с определенными типами оборудования и средами развертывания. 

Например, ONNX часто используется в рабочих процессах квантования благодаря своей совместимости с широким спектром инструментов и платформ. TensorRT, с другой стороны, высоко оптимизирован для устройств NVIDIA и поддерживает вывод с низкой точностью с использованием INT8, что делает его идеальным для высокоскоростного развертывания на периферийных графических процессорах.

Эффективные примеры использования оптимизации модели Ultralytics YOLO

Поскольку компьютерное зрение продолжает расширяться в различные реальные приложения, оптимизированные модели YOLO позволяют выполнять такие задачи, как обнаружение объектов, сегментация экземпляров и отслеживание объектов, на меньшем и более быстром оборудовании. Далее давайте обсудим пару вариантов использования, в которых прунинг и квантование делают эти задачи компьютерного зрения более эффективными и практичными.

Интеллектуальное наблюдение на базе YOLO11

Многие промышленные зоны, а также общественные места зависят от мониторинга в реальном времени для обеспечения безопасности. Такие места, как транспортные станции, производственные площадки и крупные открытые объекты, нуждаются в системах Vision AI, которые могут быстро и точно обнаруживать людей или транспортные средства. Часто эти места работают с ограниченным подключением и аппаратными ограничениями, что затрудняет развертывание больших моделей.

В таких случаях оптимизированная модель Vision AI, такая как YOLO11, является отличным решением. Ее компактный размер и высокая производительность делают ее идеальной для работы на маломощных периферийных устройствах, таких как встроенные камеры или интеллектуальные датчики. Эти модели могут обрабатывать визуальные данные непосредственно на устройстве, обеспечивая обнаружение нарушений безопасности, несанкционированного доступа или ненормальной активности в режиме реального времени, без постоянного доступа к облаку.

Рис. 4. YOLO11 можно использовать для мониторинга общественных мест, таких как станции метро.

Повышение безопасности на строительных площадках с помощью YOLO11

Строительные площадки — это динамичные и непредсказуемые среды, заполненные тяжелой техникой, перемещающимися рабочими и постоянной активностью. Условия могут быстро меняться из-за сдвига графиков, перемещения оборудования или даже внезапных изменений погоды. В такой динамичной обстановке безопасность работников может казаться постоянной проблемой.

Мониторинг в реальном времени играет решающую роль, но традиционные системы часто полагаются на доступ к облаку или дорогостоящее оборудование, которое может быть непрактичным на месте. Именно здесь модели, такие как YOLO11, могут оказать существенное влияние. YOLO11 можно оптимизировать для работы на небольших, эффективных периферийных устройствах, которые работают непосредственно на месте без необходимости подключения к Интернету.

Например, рассмотрим большую строительную площадку, такую как расширение шоссе, которое охватывает несколько акров. В этом типе обстановки отслеживать каждое транспортное средство или единицу оборудования вручную может быть сложно и отнимать много времени. Дрон, оснащенный камерой и оптимизированной моделью YOLO11, может помочь, автоматически обнаруживая и отслеживая транспортные средства, контролируя транспортный поток и выявляя проблемы безопасности, такие как несанкционированный доступ или небезопасное вождение.

Рис. 5. Анализ изображений с дронов со строительной площадки. (Источник)

Плюсы и минусы прунинга и квантования в машинном зрении

Вот некоторые ключевые преимущества, которые предлагают методы оптимизации моделей компьютерного зрения, такие как прунинг и квантование:

  • Экономически эффективное развертывание: Меньшие и более эффективные модели могут снизить потребность в дорогостоящем высокопроизводительном оборудовании, что делает ИИ более доступным и масштабируемым для различных вариантов использования.

  • Более низкая задержка: Упрощая архитектуру модели и уменьшая вычислительные издержки, эти методы могут помочь достичь более быстрого времени отклика в приложениях реального времени.

  • Энергоэффективность: Снижение вычислительной нагрузки также снижает энергопотребление, что особенно полезно для систем с батарейным питанием или мобильных систем.

Хотя обрезка и квантование предлагают много преимуществ, они также сопряжены с определенными компромиссами, которые разработчики должны учитывать при оптимизации моделей. Вот некоторые ограничения, которые следует иметь в виду:

  • Accuracy компромиссы: Если обрезка слишком агрессивная или используется квантование с очень низкой разрядностью, точность модели, измеряемая такими метриками, как mAP, может упасть.

  • Аппаратные ограничения: Не все устройства одинаково хорошо поддерживают форматы с пониженной точностью, такие как INT8. Это может ограничивать возможности развертывания оптимизированной модели.

  • Сложность реализации: Достижение хороших результатов часто требует тщательной настройки, специфичной для модели. Разработчикам может потребоваться переобучить модель и провести обширное тестирование для поддержания производительности при одновременном повышении эффективности.

Основные выводы

Прунинг (разрежение) и квантование — полезные методы, которые помогают моделям YOLO лучше работать на периферийных устройствах. Они уменьшают размер модели, снижают ее вычислительные потребности и ускоряют прогнозы без заметной потери точности.

Эти методы оптимизации также дают разработчикам возможность настраивать модели для различных типов оборудования без необходимости их полной перестройки. Благодаря некоторой настройке и тестированию становится легче применять Vision AI в реальных ситуациях.

Присоединяйтесь к нашему растущему сообществу! Изучите наш репозиторий GitHub, чтобы узнать больше об ИИ. Готовы начать свои проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Откройте для себя ИИ в сельском хозяйстве и Vision AI в здравоохранении, посетив страницы с нашими решениями! 

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена