Quantization-Aware Training (QAT)
Aprende cómo el entrenamiento consciente de la cuantización (QAT) optimiza los modelos de Ultralytics YOLO26 para la implementación en el borde. Descubre cómo mantener una alta precisión con la cuantización INT8.
El entrenamiento consciente de la cuantificación (QAT) es una técnica especializada utilizada durante la fase de entrenamiento de modelos de aprendizaje automático para prepararlos para entornos de menor precisión. En los flujos de trabajo estándar de deep learning, los modelos suelen funcionar con números de coma flotante de 32 bits de alta precisión (FP32). Aunque esta precisión ofrece una exactitud excelente, puede resultar costosa desde el punto de vista computacional e intensiva en memoria, especialmente en dispositivos de borde (edge). QAT simula los efectos de la cuantificación (reduciendo la precisión a formatos como números enteros de 8 bits o INT8) mientras el modelo aún está en entrenamiento. Al introducir estos errores de cuantificación durante el proceso de aprendizaje, el modelo aprende a adaptar sus pesos y a recuperar eficazmente la precisión que, de otro modo, podría perderse durante la conversión posterior al entrenamiento.
Link to this sectionPor qué es importante QAT para el despliegue en el borde (Edge)#
Desplegar modelos de visión artificial en dispositivos con recursos limitados suele requerir un equilibrio entre velocidad y rendimiento. Los métodos de cuantificación estándar, conocidos como cuantificación post-entrenamiento (PTQ), aplican la reducción de precisión solo después de que el modelo está completamente entrenado. Aunque PTQ es rápido, a veces puede degradar la precisión de modelos sensibles porque los pesos de la red neuronal se alteran significativamente sin oportunidad de ajuste.
QAT resuelve esto permitiendo que el modelo "practique" ser cuantificado. Durante el paso hacia adelante (forward pass) del entrenamiento, los pesos y las activaciones se simulan como valores de baja precisión. Esto permite que el proceso de descenso de gradiente actualice los parámetros del modelo de manera que minimice la pérdida específicamente para el estado cuantificado. El resultado es un modelo robusto que mantiene una alta precisión incluso cuando se despliega en hardware como microcontroladores o procesadores móviles.
Link to this sectionDiferenciación entre QAT y la cuantificación post-entrenamiento (PTQ)#
Es útil distinguir QAT de la cuantificación de modelos, específicamente la cuantificación post-entrenamiento (PTQ):
- Cuantificación post-entrenamiento (PTQ): El modelo se entrena normalmente en FP32. Una vez completado el entrenamiento, los pesos se convierten a INT8. Esto es más rápido y no requiere reentrenamiento, pero puede resultar en una mayor pérdida de precisión en arquitecturas complejas.
- Entrenamiento consciente de la cuantificación (QAT): El proceso de cuantificación se emula durante la etapa de ajuste fino (fine-tuning). El modelo ajusta sus parámetros internos para acomodar el ruido introducido por la menor precisión, lo que suele ofrecer mejor precisión que PTQ.
Link to this sectionAplicaciones en el mundo real#
QAT es esencial para industrias donde la inferencia en tiempo real en hardware de borde es crítica.
- Drones autónomos: En las operaciones de drones con IA, la duración de la batería y la potencia de procesamiento a bordo son extremadamente limitadas. Los drones que utilizan modelos optimizados mediante QAT pueden detectar obstáculos o rastrear objetos con alta precisión mientras usan aceleradores INT8, extendiendo significativamente los tiempos de vuelo en comparación con los modelos FP32.
- Cámaras inteligentes para retail: Los supermercados utilizan visión artificial en el comercio minorista para supervisar el inventario en estanterías o gestionar las colas de pago. Estos sistemas suelen funcionar en pasarelas de borde de bajo consumo. QAT asegura que los modelos de detección de objetos que se ejecutan en estos dispositivos mantengan la precisión necesaria para distinguir entre productos similares sin requerir una costosa conectividad en la nube.
Link to this sectionImplementación de QAT con Ultralytics#
La plataforma Ultralytics y el ecosistema YOLO admiten la exportación de modelos a formatos cuantificados. Aunque QAT es un procedimiento de entrenamiento complejo, los marcos modernos facilitan la preparación de modelos para la inferencia cuantificada.
A continuación se muestra un ejemplo de cómo podrías exportar un modelo YOLO26 entrenado a un formato TFLite cuantificado a INT8, el cual utiliza los principios de cuantificación para un despliegue eficiente en el borde.
from ultralytics import YOLO
# Load a trained YOLO26 model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format with INT8 quantization
# This prepares the model for efficient execution on edge devices
model.export(format="tflite", int8=True)Link to this sectionIntegración con ecosistemas de borde (Edge)#
Models optimized via quantization techniques are designed to run on specialized inference engines. QAT-trained models are frequently deployed using ONNX Runtime for cross-platform compatibility or OpenVINO for optimization on Intel hardware. This ensures that whether the target is a Raspberry Pi or a dedicated Edge TPU, the model operates with the highest possible efficiency and speed.
Link to this sectionConceptos clave relacionados con QAT#
Para entender completamente QAT, ayuda estar familiarizado con varios conceptos relacionados de aprendizaje automático:
- Precisión: Se refiere al nivel de detalle utilizado para representar números. La media precisión (FP16) y INT8 son objetivos comunes para la cuantificación.
- Calibración: El proceso de determinar el rango de valores de activación dinámica (mín./máx.) para mapear números de coma flotante a enteros de manera efectiva. Este es un paso crucial en el despliegue de modelos YOLO cuantificados.
- Latencia de inferencia: Uno de los beneficios principales de QAT es reducir la latencia de inferencia, permitiendo una toma de decisiones más rápida en sistemas de tiempo real.
- Ajuste fino (Fine-Tuning): QAT a menudo se realiza como un paso de ajuste fino en un modelo pre-entrenado en lugar de entrenar desde cero, ahorrando recursos computacionales.
Al integrar el entrenamiento consciente de la cuantificación en el flujo de trabajo de MLOps, los desarrolladores pueden cerrar la brecha entre los modelos de investigación de alta precisión y las aplicaciones de IA de borde altamente eficientes y listas para producción.






