¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Entrenamiento con reconocimiento de la cuantificación (QAT)

Optimice los modelos de IA para dispositivos periféricos con el entrenamiento con reconocimiento de la cuantificación (QAT), lo que garantiza una alta precisión y eficiencia en entornos con recursos limitados.

El Quantization-Aware Training (QAT) es una técnica avanzada de optimización de modelos que prepara una red neuronal (NN) para su implementación con una menor precisión numérica. A diferencia del entrenamiento estándar que utiliza números de coma flotante de 32 bits (FP32), QAT simula los efectos de los cálculos de enteros de 8 bits (INT8) durante el proceso de entrenamiento o ajuste fino. Al hacer que el modelo sea "consciente" de los errores de cuantificación que encontrará durante la inferencia, QAT permite que el modelo ajuste sus pesos para minimizar la posible pérdida de precisión. Esto da como resultado un modelo compacto y eficiente que mantiene un alto rendimiento, lo que lo hace ideal para su implementación en hardware con recursos limitados.

Cómo funciona el entrenamiento con reconocimiento de la cuantificación

El proceso QAT normalmente comienza con un modelo FP32 pre-entrenado. Se insertan nodos de cuantificación "falsos" en la arquitectura del modelo, que imitan el efecto de convertir valores de punto flotante a enteros de menor precisión y viceversa. El modelo se vuelve a entrenar en un conjunto de datos de entrenamiento. Durante esta fase de reentrenamiento, el modelo aprende a adaptarse a la pérdida de información asociada con la cuantificación a través de la retropropagación estándar. Esto permite que el modelo encuentre un conjunto de pesos más robusto que sea menos sensible a la precisión reducida. Los principales frameworks de aprendizaje profundo como PyTorch y TensorFlow ofrecen herramientas y APIs robustas para implementar flujos de trabajo QAT.

QAT vs. Cuantificación Post-Entrenamiento

QAT se compara a menudo con la cuantificación post-entrenamiento (PTQ), otro método común de cuantificación de modelos. La diferencia clave radica en cuándo se aplica la cuantificación.

  • Cuantización Post-Entrenamiento (PTQ): Este método se aplica después de que el modelo ha sido completamente entrenado. Es un proceso más simple y rápido que no requiere reentrenamiento ni acceso a los datos de entrenamiento originales. Sin embargo, a veces puede provocar una caída significativa en la precisión del modelo, especialmente para los modelos sensibles.
  • Entrenamiento con reconocimiento de la cuantización (QAT): Este método integra la cuantización en el bucle de entrenamiento. Aunque requiere más recursos computacionales y acceso a los datos de entrenamiento, el QAT casi siempre da como resultado una mayor precisión para el modelo cuantificado final en comparación con el PTQ. Es el método preferido cuando es fundamental maximizar el rendimiento.

Aplicaciones de QAT en el mundo real

El entrenamiento consciente de la cuantificación es vital para desplegar modelos de IA sofisticados en entornos con recursos limitados donde la eficiencia es clave.

  1. Visión artificial en el dispositivo: Ejecutar modelos complejos de visión artificial como Ultralytics YOLOv8 directamente en smartphones para aplicaciones como la detección de objetos en tiempo real en aplicaciones de realidad aumentada o la clasificación de imágenes dentro de las herramientas de gestión de fotos. QAT permite que estos modelos se ejecuten de manera eficiente sin un consumo significativo de batería o latencia.
  2. Edge AI en automoción y robótica: Desplegar modelos para tareas como la detección de peatones o la asistencia de mantenimiento de carril en vehículos autónomos o para la manipulación de objetos en robótica. QAT permite que estos modelos se ejecuten en hardware especializado como Google Edge TPUs o NVIDIA Jetson, asegurando una baja latencia de inferencia para decisiones críticas en tiempo real. Esto es crucial para aplicaciones como los sistemas de alarma de seguridad o la gestión de aparcamientos.

Relación con Otras Técnicas de Optimización

QAT es una de las varias técnicas para la optimización de la implementación de modelos y se utiliza a menudo junto con otras para obtener la máxima eficiencia.

  • Poda de modelos: Implica la eliminación de conexiones redundantes o sin importancia de la red. Un modelo se puede podar primero y luego someterse a QAT para lograr una compresión aún mayor.
  • Destilación del Conocimiento: Entrena un modelo "estudiante" más pequeño para imitar a un modelo "profesor" más grande. El modelo estudiante resultante puede optimizarse aún más utilizando QAT.

Ultralytics admite la exportación de modelos a varios formatos como ONNX, TensorRT y TFLite, que son compatibles con los flujos de trabajo de QAT, lo que permite un despliegue eficiente en diversos hardware de empresas como Intel y NVIDIA. Puede gestionar e implementar sus modelos optimizados para QAT utilizando plataformas como Ultralytics HUB. Evaluar el rendimiento del modelo utilizando métricas relevantes después de QAT es esencial para garantizar que se cumplen los requisitos de precisión.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles