Optimice los modelos de IA para dispositivos periféricos con Quantization-Aware Training (QAT), garantizando una alta precisión y eficiencia en entornos con recursos limitados.
Quantization-Aware Training (QAT) es una técnica avanzada de optimización de modelos que prepara una red neuronal (NN ) para su despliegue con menor precisión numérica. A diferencia del entrenamiento estándar, que utiliza números de coma flotante de 32 bits (FP32), QAT simula los efectos de los cálculos de enteros de 8 bits (INT8) durante el proceso de entrenamiento o ajuste. Al hacer que el modelo sea "consciente" de los errores de cuantización que encontrará durante la inferencia, QAT permite que el modelo ajuste sus pesos para minimizar la pérdida potencial de precisión. El resultado es un modelo compacto y eficiente que mantiene un alto rendimiento, lo que lo hace ideal para su despliegue en hardware con recursos limitados.
El proceso QAT suele comenzar con un modelo FP32 preentrenado. Se insertan nodos de cuantización "falsos" en la arquitectura del modelo, que imitan el efecto de convertir valores de coma flotante en enteros de menor precisión y viceversa. A continuación, se vuelve a entrenar el modelo con un conjunto de datos de entrenamiento. Durante esta fase de reentrenamiento, el modelo aprende a adaptarse a la pérdida de información asociada a la cuantización mediante la retropropagación estándar. Esto permite al modelo encontrar un conjunto más robusto de pesos que son menos sensibles a la precisión reducida. Los principales marcos de aprendizaje profundo, como PyTorch y TensorFlow, ofrecen herramientas y API sólidas para implementar flujos de trabajo QAT.
QAT se compara a menudo con la Cuantización Post-Entrenamiento (PTQ), otro método común de cuantización de modelos. La diferencia clave radica en cuándo se aplica la cuantización.
El entrenamiento consciente de la cuantización es vital para desplegar modelos de IA sofisticados en entornos con recursos limitados donde la eficiencia es clave.
QAT es una de las diversas técnicas de optimización del despliegue de modelos y suele utilizarse junto a otras para lograr la máxima eficacia.
Ultralytics admite la exportación de modelos a varios formatos como ONNX, TensorRT y TFLite, que son compatibles con los flujos de trabajo de QAT, lo que permite un despliegue eficaz en diversos equipos de empresas como Intel y NVIDIA. Puede gestionar y desplegar sus modelos optimizados para QAT utilizando plataformas como Ultralytics HUB. La evaluación del rendimiento del modelo mediante métricas relevantes después de QAT es esencial para garantizar el cumplimiento de los requisitos de precisión.