Optimice los modelos de IA para dispositivos periféricos con el entrenamiento con reconocimiento de la cuantificación (QAT), lo que garantiza una alta precisión y eficiencia en entornos con recursos limitados.
El entrenamiento consciente de la cuantización (QAT) es una sofisticada técnica de optimización de modelos. técnica de optimización de modelos diseñada para preparar redes neuronales despliegue en hardware con recursos computacionales limitados. Mientras que los modelos de aprendizaje profundo suelen procesar datos números de coma flotante de 32 bits (FP32) de alta precisión, muchos dispositivos de IA de vanguardia requieren una precisión menor, como enteros de 8 bits (INT8), para ahorrar memoria y energía. QAT resuelve la pérdida de precisión que suele provocar esta conversión efectos de la cuantización durante la fase de cuantificación durante la fase de entrenamiento. Este enfoque proactivo permite al ajustar sus pesos para adaptarse a la pérdida de precisión. de precisión, lo que da lugar a modelos muy eficientes que conservan su rendimiento predictivo.
El mecanismo central del entrenamiento basado en la cuantificación consiste en insertar nodos de cuantificación "falsos" en la arquitectura del modelo durante el entrenamiento. en la arquitectura del modelo durante el entrenamiento. Estos nodos modelan los errores de redondeo y sujeción que se producen al convertir FP32 a INT8. Durante el paso hacia delante, el modelo funciona como si estuviera cuantizado, mientras que en el paso hacia atrás -utilizando la retropropagación- el modelo funciona como si estuviera cuantizado. de retropropagación actualizalos pesos con gran alta precisión para compensar los errores simulados.
En esencia, este proceso afina el modelo para que sea robusto frente al ruido introducido por la reducción de la precisión. Los principales marcos de frameworks como PyTorch y TensorFlow proporcionan API para facilitar este flujo de trabajo. Al integrar estas restricciones desde el principio, el modelo final exportado se ajusta mucho mejor a las capacidades del hardware de destino. alineado con las capacidades del hardware de destino, como los que se encuentran en sistemas embebidos.
Es importante distinguir entre QAT y cuantificación post-entrenamiento (PTQ), ya que sirven objetivos similares pero difieren en su ejecución:
QAT es esencial para las industrias en las que la latencia de la inferencia y el consumo factores críticos.
Mientras que las canalizaciones QAT completas suelen implicar configuraciones de formación específicas, la ultralytics biblioteca
agiliza el proceso de exportación para producir modelos cuantificados listos para su despliegue. El siguiente ejemplo muestra
cómo exportar un modelo YOLO11 a TFLite formato con cuantización INT8,
preparándolo para una ejecución eficiente.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Export to TFLite with INT8 quantization
# This creates a compact model optimized for edge devices
model.export(format="tflite", int8=True)
Para lograr la máxima eficacia, QAT suele combinarse con otras técnicas de despliegue de modelos. La poda de modelos elimina las conexiones redundantes antes de cuantificación, lo que reduce aún más el tamaño. Además, destilación de conocimientos para entrenar un modelo de estudiante compacto, que luego se refina mediante QAT. Los modelos cuantificados finales son compatibles con tiempos de ejecución de alto rendimiento como ONNX Runtime y OpenVINOgarantizando una amplia compatibilidad con diversas plataformas de hardware Intel a Google Coral.