Оптимизируйте модели ИИ для периферийных устройств с помощью Quantization-Aware Training (QAT), обеспечивая высокую точность и эффективность в средах с ограниченными ресурсами.
Quantization-Aware Training (QAT) — это продвинутый метод оптимизации моделей, который подготавливает нейронную сеть (NN) к развертыванию с более низкой числовой точностью. В отличие от стандартного обучения, в котором используются 32-битные числа с плавающей запятой (FP32), QAT имитирует эффекты 8-битных целочисленных (INT8) вычислений во время процесса обучения или тонкой настройки. Делая модель «осведомленной» о погрешностях квантования, с которыми она столкнется во время инференса, QAT позволяет модели корректировать свои веса, чтобы минимизировать потенциальную потерю точности. В результате получается компактная, эффективная модель, которая поддерживает высокую производительность, что делает ее идеальной для развертывания на оборудовании с ограниченными ресурсами.
Процесс QAT обычно начинается с предварительно обученной модели FP32. В архитектуру модели вставляются «фальшивые» узлы квантования, которые имитируют эффект преобразования значений с плавающей запятой в целые числа с меньшей точностью и обратно. Затем модель повторно обучается на наборе обучающих данных. Во время этого этапа повторного обучения модель учится адаптироваться к потере информации, связанной с квантованием, посредством стандартного обратного распространения ошибки. Это позволяет модели найти более надежный набор весов, которые менее чувствительны к сниженной точности. Ведущие фреймворки глубокого обучения, такие как PyTorch и TensorFlow, предлагают надежные инструменты и API для реализации рабочих процессов QAT.
QAT часто сравнивают с Post-Training Quantization (PTQ), другим распространенным методом квантования моделей. Ключевое различие заключается в том, когда применяется квантование.
Квантование с учетом обучения жизненно важно для развертывания сложных моделей ИИ в средах с ограниченными ресурсами, где эффективность является ключевым фактором.
QAT — один из нескольких методов оптимизации развертывания моделей и часто используется вместе с другими для достижения максимальной эффективности.
Ultralytics поддерживает экспорт моделей в различные форматы, такие как ONNX, TensorRT и TFLite, которые совместимы с рабочими процессами QAT, обеспечивая эффективное развертывание на различном оборудовании от таких компаний, как Intel и NVIDIA. Вы можете управлять и развертывать свои QAT-оптимизированные модели с помощью таких платформ, как Ultralytics HUB. Оценка производительности модели с использованием соответствующих метрик после QAT имеет важное значение для обеспечения соответствия требованиям к точности.