Glosario

Entrenamiento consciente de la cuantización (QAT)

Optimiza los modelos de IA para dispositivos periféricos con la Formación Consciente de la Cuantización (QAT), garantizando una gran precisión y eficacia en entornos con recursos limitados.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El entrenamiento consciente de la cuantización (QAT) es una potente técnica utilizada para optimizar modelos de aprendizaje profundo (DL), como Ultralytics YOLO de Ultralytics, para su despliegue en dispositivos con recursos informáticos limitados, como teléfonos móviles o sistemas integrados. Los modelos estándar suelen utilizar números de alta precisión (como los de coma flotante de 32 bits o FP32) para los cálculos, lo que exige una potencia de procesamiento y una memoria considerables. El objetivo de QAT es reducir esta demanda preparando el modelo durante la fase de entrenamiento para que funcione bien incluso cuando utilice números de menor precisión (por ejemplo, enteros de 8 bits o INT8), salvando así la distancia entre la alta precisión y el rendimiento eficiente en dispositivos de borde. Esta optimización es crucial para habilitar tareas complejas de IA directamente en hardware como smartphones o sensores IoT.

Cómo funciona el entrenamiento consciente de la cuantización

A diferencia de los métodos que cuantizan un modelo después de haberlo entrenado completamente, QAT integra la simulación de los efectos de la cuantización directamente en el proceso de entrenamiento. Introduce operaciones denominadas nodos de "cuantización falsa" dentro de la arquitectura del modelo durante el entrenamiento. Estos nodos imitan el efecto de una menor precisión (por ejemplo, precisión INT8) en los pesos y activaciones del modelo durante el pase hacia delante, redondeando los valores como lo harían en un modelo realmente cuantizado. Sin embargo, durante el paso hacia atrás (donde el modelo aprende mediante retropropagación), los gradientes suelen calcularse y las actualizaciones se aplican utilizando números estándar de coma flotante de alta precisión. Esto permite que los parámetros del modelo se adapten y aprendan a ser resistentes a la pérdida de precisión que se producirá durante la inferencia cuantizada real. Al "ver" los efectos de la cuantización durante el entrenamiento, el modelo minimiza la caída de precisión asociada a menudo con el despliegue de modelos en formatos de baja precisión, un aspecto clave tratado en las estrategias de optimización de modelos. Frameworks como TensorFlow Lite y PyTorch proporcionan herramientas para implementar QAT.

Distinción de conceptos afines

QAT frente a Cuantificación del modelo (post-entrenamiento)

La principal diferencia radica en cuándo se aplica la cuantización. La Cuantización de Modelos, a menudo referida como Cuantización Post-Entrenamiento (PTQ), convierte un modelo preentrenado de precisión total a un formato de menor precisión una vez finalizado el entrenamiento. La PTQ suele ser más sencilla de aplicar, ya que no requiere reentrenamiento ni acceso al conjunto de datos de entrenamiento original. Sin embargo, a veces puede provocar una notable disminución de la precisión del modelo, especialmente en el caso de modelos complejos que realizan tareas como la detección de objetos o la segmentación de imágenes. La QAT, por el contrario, simula la cuantización durante el entrenamiento, haciendo que el modelo sea inherentemente más robusto a la reducción de precisión. Esto suele dar como resultado una mayor precisión del modelo cuantizado final en comparación con la PTQ, aunque requiere más recursos informáticos y acceso a los datos de entrenamiento. Para modelos como YOLO, que incorpora bloques favorables a la cuantización, la QAT puede aportar importantes ventajas de rendimiento con una pérdida de precisión mínima.

QAT vs. Precisión Mixta

Aunque ambas técnicas implican precisión numérica, sus objetivos difieren. El entrenamiento de Precisión Mixta pretende principalmente acelerar el propio proceso de entrenamiento y reducir el uso de memoria durante el entrenamiento utilizando una combinación de formatos de baja precisión (por ejemplo, flotante de 16 bits o FP16) y de precisión estándar (flotante de 32 bits) para los cálculos y el almacenamiento. QAT se centra específicamente en optimizar el modelo para una inferencia eficiente utilizando formatos enteros de baja precisión (como INT8) tras la implantación del modelo. Aunque la precisión mixta ayuda durante el entrenamiento, QAT garantiza que el modelo final funcione bien bajo las restricciones del hardware de inferencia cuantizada, como las NPU (Unidades de Procesamiento Neuronal) o las TPU.

Aplicaciones reales de QAT

El Entrenamiento Consciente de la Cuantización es vital para desplegar modelos sofisticados de IA en entornos con recursos limitados, donde la eficiencia es clave.

  1. Visión por ordenador en el dispositivo: Ejecución de modelos complejos de visión por ordenador como Ultralytics YOLOv8 directamente en los smartphones para aplicaciones como la detección de objetos en tiempo real en aplicaciones de realidad aumentada o la clasificación de imágenes en herramientas de gestión fotográfica. QAT permite que estos modelos se ejecuten eficientemente sin un consumo significativo de batería ni latencia.
  2. Edge AI en Automoción y Robótica: Despliegue de modelos para tareas como la detección de peatones o la asistencia de mantenimiento de carril en vehículos autónomos o para la manipulación de objetos en robótica. QAT permite que estos modelos se ejecuten en hardware especializado como Google Edge TPUs o NVIDIA Jetson, garantizando una baja latencia de inferencia para decisiones críticas en tiempo real. Esto es crucial para aplicaciones como los sistemas de alarma de seguridad o la gestión de aparcamientos.

Ultralytics permite exportar modelos a varios formatos como ONNX, TensorRTy TFLite, que son compatibles con los flujos de trabajo de QAT, lo que permite un despliegue eficaz en hardware diverso. Puedes gestionar y desplegar tus modelos optimizados para QAT utilizando plataformas como Ultralytics HUB. Evaluar el rendimiento del modelo utilizando métricas relevantes después de QAT es esencial para garantizar que se cumplen los requisitos de precisión.

Leer todo