Optimice los modelos de IA para dispositivos periféricos con el entrenamiento con reconocimiento de la cuantificación (QAT), lo que garantiza una alta precisión y eficiencia en entornos con recursos limitados.
El Quantization-Aware Training (QAT) es una técnica avanzada de optimización de modelos que prepara una red neuronal (NN) para su implementación con una menor precisión numérica. A diferencia del entrenamiento estándar que utiliza números de coma flotante de 32 bits (FP32), QAT simula los efectos de los cálculos de enteros de 8 bits (INT8) durante el proceso de entrenamiento o ajuste fino. Al hacer que el modelo sea "consciente" de los errores de cuantificación que encontrará durante la inferencia, QAT permite que el modelo ajuste sus pesos para minimizar la posible pérdida de precisión. Esto da como resultado un modelo compacto y eficiente que mantiene un alto rendimiento, lo que lo hace ideal para su implementación en hardware con recursos limitados.
El proceso QAT normalmente comienza con un modelo FP32 pre-entrenado. Se insertan nodos de cuantificación "falsos" en la arquitectura del modelo, que imitan el efecto de convertir valores de punto flotante a enteros de menor precisión y viceversa. El modelo se vuelve a entrenar en un conjunto de datos de entrenamiento. Durante esta fase de reentrenamiento, el modelo aprende a adaptarse a la pérdida de información asociada con la cuantificación a través de la retropropagación estándar. Esto permite que el modelo encuentre un conjunto de pesos más robusto que sea menos sensible a la precisión reducida. Los principales frameworks de aprendizaje profundo como PyTorch y TensorFlow ofrecen herramientas y APIs robustas para implementar flujos de trabajo QAT.
QAT se compara a menudo con la cuantificación post-entrenamiento (PTQ), otro método común de cuantificación de modelos. La diferencia clave radica en cuándo se aplica la cuantificación.
El entrenamiento consciente de la cuantificación es vital para desplegar modelos de IA sofisticados en entornos con recursos limitados donde la eficiencia es clave.
QAT es una de las varias técnicas para la optimización de la implementación de modelos y se utiliza a menudo junto con otras para obtener la máxima eficiencia.
Ultralytics admite la exportación de modelos a varios formatos como ONNX, TensorRT y TFLite, que son compatibles con los flujos de trabajo de QAT, lo que permite un despliegue eficiente en diversos hardware de empresas como Intel y NVIDIA. Puede gestionar e implementar sus modelos optimizados para QAT utilizando plataformas como Ultralytics HUB. Evaluar el rendimiento del modelo utilizando métricas relevantes después de QAT es esencial para garantizar que se cumplen los requisitos de precisión.