Optimiza los modelos de IA para dispositivos periféricos con la Formación Consciente de la Cuantización (QAT), garantizando una gran precisión y eficacia en entornos con recursos limitados.
El entrenamiento consciente de la cuantización (QAT) es una potente técnica utilizada para optimizar modelos de aprendizaje profundo (DL), como Ultralytics YOLO de Ultralytics, para su despliegue en dispositivos con recursos informáticos limitados, como teléfonos móviles o sistemas integrados. Los modelos estándar suelen utilizar números de alta precisión (como los de coma flotante de 32 bits o FP32) para los cálculos, lo que exige una potencia de procesamiento y una memoria considerables. El objetivo de QAT es reducir esta demanda preparando el modelo durante la fase de entrenamiento para que funcione bien incluso cuando utilice números de menor precisión (por ejemplo, enteros de 8 bits o INT8), salvando así la distancia entre la alta precisión y el rendimiento eficiente en dispositivos de borde. Esta optimización es crucial para habilitar tareas complejas de IA directamente en hardware como smartphones o sensores IoT.
A diferencia de los métodos que cuantizan un modelo después de haberlo entrenado completamente, QAT integra la simulación de los efectos de la cuantización directamente en el proceso de entrenamiento. Introduce operaciones denominadas nodos de "cuantización falsa" dentro de la arquitectura del modelo durante el entrenamiento. Estos nodos imitan el efecto de una menor precisión (por ejemplo, precisión INT8) en los pesos y activaciones del modelo durante el pase hacia delante, redondeando los valores como lo harían en un modelo realmente cuantizado. Sin embargo, durante el paso hacia atrás (donde el modelo aprende mediante retropropagación), los gradientes suelen calcularse y las actualizaciones se aplican utilizando números estándar de coma flotante de alta precisión. Esto permite que los parámetros del modelo se adapten y aprendan a ser resistentes a la pérdida de precisión que se producirá durante la inferencia cuantizada real. Al "ver" los efectos de la cuantización durante el entrenamiento, el modelo minimiza la caída de precisión asociada a menudo con el despliegue de modelos en formatos de baja precisión, un aspecto clave tratado en las estrategias de optimización de modelos. Frameworks como TensorFlow Lite y PyTorch proporcionan herramientas para implementar QAT.
La principal diferencia radica en cuándo se aplica la cuantización. La Cuantización de Modelos, a menudo referida como Cuantización Post-Entrenamiento (PTQ), convierte un modelo preentrenado de precisión total a un formato de menor precisión una vez finalizado el entrenamiento. La PTQ suele ser más sencilla de aplicar, ya que no requiere reentrenamiento ni acceso al conjunto de datos de entrenamiento original. Sin embargo, a veces puede provocar una notable disminución de la precisión del modelo, especialmente en el caso de modelos complejos que realizan tareas como la detección de objetos o la segmentación de imágenes. La QAT, por el contrario, simula la cuantización durante el entrenamiento, haciendo que el modelo sea inherentemente más robusto a la reducción de precisión. Esto suele dar como resultado una mayor precisión del modelo cuantizado final en comparación con la PTQ, aunque requiere más recursos informáticos y acceso a los datos de entrenamiento. Para modelos como YOLO, que incorpora bloques favorables a la cuantización, la QAT puede aportar importantes ventajas de rendimiento con una pérdida de precisión mínima.
Aunque ambas técnicas implican precisión numérica, sus objetivos difieren. El entrenamiento de Precisión Mixta pretende principalmente acelerar el propio proceso de entrenamiento y reducir el uso de memoria durante el entrenamiento utilizando una combinación de formatos de baja precisión (por ejemplo, flotante de 16 bits o FP16) y de precisión estándar (flotante de 32 bits) para los cálculos y el almacenamiento. QAT se centra específicamente en optimizar el modelo para una inferencia eficiente utilizando formatos enteros de baja precisión (como INT8) tras la implantación del modelo. Aunque la precisión mixta ayuda durante el entrenamiento, QAT garantiza que el modelo final funcione bien bajo las restricciones del hardware de inferencia cuantizada, como las NPU (Unidades de Procesamiento Neuronal) o las TPU.
El Entrenamiento Consciente de la Cuantización es vital para desplegar modelos sofisticados de IA en entornos con recursos limitados, donde la eficiencia es clave.
Ultralytics permite exportar modelos a varios formatos como ONNX, TensorRTy TFLite, que son compatibles con los flujos de trabajo de QAT, lo que permite un despliegue eficaz en hardware diverso. Puedes gestionar y desplegar tus modelos optimizados para QAT utilizando plataformas como Ultralytics HUB. Evaluar el rendimiento del modelo utilizando métricas relevantes después de QAT es esencial para garantizar que se cumplen los requisitos de precisión.