Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Entrenamiento con reconocimiento de la cuantificación (QAT)

Descubra cómo el entrenamiento con conciencia de cuantificación (QAT) optimiza los modelos Ultralytics para su implementación en el borde. Descubra cómo mantener una alta precisión con INT8.

El entrenamiento consciente de la cuantificación (QAT) es una técnica especializada que se utiliza durante la fase de entrenamiento de los modelos de aprendizaje automático para prepararlos para entornos de menor precisión. En los flujos de trabajo estándar de aprendizaje profundo, los modelos suelen funcionar utilizando números de coma flotante de 32 bits de alta precisión (FP32). Aunque esta precisión ofrece una excelente exactitud, puede ser computacionalmente costosa y requerir mucha memoria, especialmente en dispositivos periféricos. El QAT simula los efectos de la cuantización, reduciendo la precisión a formatos como los enteros de 8 bits (INT8), mientras el modelo sigue entrenándose. Al introducir estos errores de cuantización durante el proceso de aprendizaje, el modelo aprende a adaptar sus pesos y recuperar eficazmente la precisión que, de otro modo, se perdería durante la conversión posterior al entrenamiento.

Por qué QAT es importante para la implementación periférica

La implementación de modelos de visión artificial en dispositivos con recursos limitados a menudo requiere un equilibrio entre velocidad y rendimiento. Los métodos de cuantificación estándar, conocidos como cuantificación posterior al entrenamiento (PTQ), aplican la reducción de precisión solo después de que el modelo se ha entrenado por completo. Aunque la PTQ es rápida, a veces puede degradar la precisión de los modelos sensibles, ya que los pesos de la red neuronal se alteran significativamente sin posibilidad de ajuste.

QAT resuelve esto permitiendo que el modelo «practique» la cuantificación. Durante la pasada directa del entrenamiento, los pesos y las activaciones se simulan como valores de baja precisión. Esto permite que el proceso de descenso de gradiente actualice los parámetros del modelo de manera que se minimice la pérdida específicamente para el estado cuantificado. El resultado es un modelo robusto que mantiene una alta precisión incluso cuando se implementa en hardware como microcontroladores o procesadores móviles.

Diferenciación entre QAT y cuantificación posterior al entrenamiento (PTQ)

Es útil distinguir la QAT de la cuantización de modelos, concretamente de la cuantización posterior al entrenamiento (PTQ):

  • Cuantificación posterior al entrenamiento (PTQ): El modelo se entrena normalmente en FP32. Una vez completado el entrenamiento , los pesos se convierten a INT8. Esto es más rápido y no requiere reentrenamiento, pero puede dar lugar a una mayor pérdida de precisión en arquitecturas complejas.
  • Entrenamiento consciente de la cuantificación (QAT): El proceso de cuantificación se emula durante la etapa de ajuste fino. El modelo ajusta sus parámetros internos para adaptarse al ruido introducido por una menor precisión, lo que normalmente proporciona una mayor precisión que el PTQ.

Aplicaciones en el mundo real

QAT es esencial para industrias en las que la inferencia en tiempo real en hardware periférico es fundamental.

  • Drones detect : En las operaciones con drones con IA, la duración de la batería y la potencia de procesamiento a bordo son muy limitadas. Los drones que utilizan modelos optimizados mediante QAT pueden detectar obstáculos o track con gran precisión utilizando aceleradores INT8, lo que prolonga significativamente los tiempos de vuelo en comparación con los modelos FP32.
  • Cámaras inteligentes para comercios minoristas: los supermercados utilizan la visión artificial en el comercio minorista para supervisar el inventario de las estanterías o gestionar las colas en las cajas. Estos sistemas suelen funcionar con puertas de enlace periféricas de bajo consumo. QAT garantiza que los modelos de detección de objetos que se ejecutan en estos dispositivos mantengan la precisión necesaria para distinguir entre productos similares sin necesidad de una costosa conectividad a la nube.

Implementación de QAT con Ultralytics

La Ultralytics y el YOLO admiten la exportación de modelos a formatos cuantificados. Aunque el QAT es un procedimiento de entrenamiento complejo, los marcos modernos facilitan la preparación de modelos para la inferencia cuantificada.

A continuación se muestra un ejemplo de cómo se puede exportar un modelo YOLO26 entrenado a un TFLite cuantificado INT8, que utiliza los principios de cuantificación para un despliegue eficiente en el borde.

from ultralytics import YOLO

# Load a trained YOLO26 model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format with INT8 quantization
# This prepares the model for efficient execution on edge devices
model.export(format="tflite", int8=True)

Integración con ecosistemas periféricos

Los modelos optimizados mediante técnicas de cuantificación están diseñados para ejecutarse en motores de inferencia especializados. Los modelos entrenados con QAT se implementan con frecuencia utilizando ONNX para la compatibilidad entre plataformas o OpenVINO para la optimización en Intel . Esto garantiza que, tanto si el objetivo es una Raspberry Pi como una TPU Edge dedicada, el modelo funcione con la mayor eficiencia y velocidad posibles.

Conceptos clave relacionados con QAT

Para comprender plenamente el QAT, es útil estar familiarizado con varios conceptos relacionados con el aprendizaje automático:

  • Precisión: se refiere al nivel de detalle utilizado para representar los números. La semiprecisión (FP16) y INT8 son objetivos comunes para la cuantificación.
  • Calibración: proceso de determinación del rango de valores de activación dinámica (mín./máx.) para asignar números de coma flotante a números enteros de manera eficaz. Este es un paso crucial en la implementación de YOLO cuantificados.
  • Latencia de inferencia: Una de las principales ventajas de QAT es la reducción de la latencia de inferencia, lo que permite una toma de decisiones más rápida en sistemas en tiempo real.
  • Ajuste fino: El QAT se suele realizar como un paso de ajuste fino en un modelo preentrenado en lugar de entrenarlo desde cero, lo que ahorra recursos computacionales.

Al integrar el entrenamiento con reconocimiento de cuantificación en el proceso de MLOps, los desarrolladores pueden salvar la brecha entre los modelos de investigación de alta precisión y las aplicaciones de IA de vanguardia altamente eficientes y listas para la producción.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora