Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Entrenamiento con reconocimiento de la cuantificación (QAT)

Optimice los modelos de IA para dispositivos periféricos con el entrenamiento con reconocimiento de la cuantificación (QAT), lo que garantiza una alta precisión y eficiencia en entornos con recursos limitados.

El entrenamiento consciente de la cuantización (QAT) es una sofisticada técnica de optimización de modelos. técnica de optimización de modelos diseñada para preparar redes neuronales despliegue en hardware con recursos computacionales limitados. Mientras que los modelos de aprendizaje profundo suelen procesar datos números de coma flotante de 32 bits (FP32) de alta precisión, muchos dispositivos de IA de vanguardia requieren una precisión menor, como enteros de 8 bits (INT8), para ahorrar memoria y energía. QAT resuelve la pérdida de precisión que suele provocar esta conversión efectos de la cuantización durante la fase de cuantificación durante la fase de entrenamiento. Este enfoque proactivo permite al ajustar sus pesos para adaptarse a la pérdida de precisión. de precisión, lo que da lugar a modelos muy eficientes que conservan su rendimiento predictivo.

Cómo funciona QAT

El mecanismo central del entrenamiento basado en la cuantificación consiste en insertar nodos de cuantificación "falsos" en la arquitectura del modelo durante el entrenamiento. en la arquitectura del modelo durante el entrenamiento. Estos nodos modelan los errores de redondeo y sujeción que se producen al convertir FP32 a INT8. Durante el paso hacia delante, el modelo funciona como si estuviera cuantizado, mientras que en el paso hacia atrás -utilizando la retropropagación- el modelo funciona como si estuviera cuantizado. de retropropagación actualizalos pesos con gran alta precisión para compensar los errores simulados.

En esencia, este proceso afina el modelo para que sea robusto frente al ruido introducido por la reducción de la precisión. Los principales marcos de frameworks como PyTorch y TensorFlow proporcionan API para facilitar este flujo de trabajo. Al integrar estas restricciones desde el principio, el modelo final exportado se ajusta mucho mejor a las capacidades del hardware de destino. alineado con las capacidades del hardware de destino, como los que se encuentran en sistemas embebidos.

Diferencia con la cuantificación posterior al entrenamiento

Es importante distinguir entre QAT y cuantificación post-entrenamiento (PTQ), ya que sirven objetivos similares pero difieren en su ejecución:

  • Cuantificación posterior al entrenamiento (PTQ): Se aplica después de que el modelo haya sido completamente entrenado. Analiza un pequeño conjunto de datos de calibración para asignar valores de coma flotante a enteros. Aunque es rápida y fácil de aplicar, la PTQ puede una degradación significativa de la precisión en modelos sensibles.
  • Quantization-Aware Training (QAT): Incorpora la cuantización en el proceso de proceso de ajuste. Es más intensivo computacional que el PTQ, pero suele ofrecer una precisión superior, lo que lo convierte en la opción preferida para desplegar modelos de vanguardia como Ultralytics YOLO11 en escenarios de misión crítica.

Aplicaciones en el mundo real

QAT es esencial para las industrias en las que la latencia de la inferencia y el consumo factores críticos.

  1. Conducción autónoma: Los vehículos se basan en visión por ordenador para tareas como la peatones y el seguimiento de carriles. Estos sistemas suelen ejecutarse en hardware especializado como módulos NVIDIA Jetson. QAT garantiza que los modelos sean lo bastante precisos para garantizar la seguridad y lo bastante rápidos para tomar decisiones en tiempo real.
  2. Asistencia sanitaria móvil: Los dispositivos de diagnóstico portátiles suelen utilizar clasificación de imágenes para médicas. Con QAT, los desarrolladores pueden implantar sólidos modelos de IA en procesadores móviles, como los chips Qualcomm Snapdragon, lo que permite realizar diagnósticos diagnósticos avanzados sin agotar la batería del dispositivo.

Aplicación de la cuantificación con Ultralytics

Mientras que las canalizaciones QAT completas suelen implicar configuraciones de formación específicas, la ultralytics biblioteca agiliza el proceso de exportación para producir modelos cuantificados listos para su despliegue. El siguiente ejemplo muestra cómo exportar un modelo YOLO11 a TFLite formato con cuantización INT8, preparándolo para una ejecución eficiente.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")

# Export to TFLite with INT8 quantization
# This creates a compact model optimized for edge devices
model.export(format="tflite", int8=True)

Integración con otros métodos de optimización

Para lograr la máxima eficacia, QAT suele combinarse con otras técnicas de despliegue de modelos. La poda de modelos elimina las conexiones redundantes antes de cuantificación, lo que reduce aún más el tamaño. Además, destilación de conocimientos para entrenar un modelo de estudiante compacto, que luego se refina mediante QAT. Los modelos cuantificados finales son compatibles con tiempos de ejecución de alto rendimiento como ONNX Runtime y OpenVINOgarantizando una amplia compatibilidad con diversas plataformas de hardware Intel a Google Coral.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora