Оптимизируйте модели ИИ для граничных устройств с помощью обучения с учетом квантования (QAT), обеспечивая высокую точность и эффективность в условиях ограниченных ресурсов.
Обучение с учетом квантования (QAT) - это передовой метод оптимизации модели, который подготавливает нейронную сеть (НС) к развертыванию с более низкой точностью вычислений. В отличие от стандартного обучения, в котором используются 32-битные числа с плавающей точкой (FP32), QAT имитирует эффект 8-битных целочисленных вычислений (INT8) в процессе обучения или тонкой настройки. Заставляя модель "знать" об ошибках квантования, с которыми она столкнется в процессе вывода, QAT позволяет модели корректировать свои веса, чтобы минимизировать потенциальную потерю точности. В результате получается компактная, эффективная модель, сохраняющая высокую производительность, что делает ее идеальной для развертывания на аппаратном обеспечении с ограниченными ресурсами.
Процесс QAT обычно начинается с предварительно обученной модели FP32. В архитектуру модели вставляются "фальшивые" узлы квантования, которые имитируют эффект преобразования значений с плавающей точкой в целые числа с более низкой точностью и обратно. Затем модель переобучается на обучающем наборе данных. На этапе переобучения модель учится адаптироваться к потерям информации, связанным с квантованием, с помощью стандартного обратного распространения. Это позволяет модели найти более надежный набор весов, который менее чувствителен к снижению точности. Ведущие фреймворки глубокого обучения, такие как PyTorch и TensorFlow, предлагают надежные инструменты и API для реализации рабочих процессов QAT.
QAT часто сравнивают с квантованием после обучения (PTQ), другим распространенным методом квантования модели. Ключевое различие заключается в том, когда применяется квантование.
Обучение с учетом квантования крайне важно для развертывания сложных моделей искусственного интеллекта в средах с ограниченными ресурсами, где эффективность является ключевым фактором.
QAT является одной из нескольких техник оптимизации развертывания модели и часто используется наряду с другими для достижения максимальной эффективности.
Ultralytics поддерживает экспорт моделей в различные форматы, такие как ONNX, TensorRT и TFLite, которые совместимы с рабочими процессами QAT, что позволяет эффективно развертывать модели на различном оборудовании таких компаний, как Intel и NVIDIA. Вы можете управлять и развертывать оптимизированные для QAT модели с помощью таких платформ, как Ultralytics HUB. Оценка производительности модели с помощью соответствующих метрик после QAT очень важна для обеспечения соответствия требованиям к точности.