Descubra cómo la cuantificación de modelos optimiza Ultralytics para la IA periférica. Descubra cómo reducir la memoria, disminuir la latencia y exportar modelos INT8 para una inferencia más rápida.
La cuantificación de modelos es una sofisticada técnica de optimización de modelos que se utiliza para reducir los costes computacionales y de memoria que supone ejecutar modelos de aprendizaje profundo. En los flujos de trabajo de entrenamiento estándar, las redes neuronales suelen almacenar parámetros (weights and biases) y mapas de activación utilizando números de punto flotante de 32 bits (FP32). Si bien esta alta precisión garantiza cálculos precisos durante el entrenamiento, a menudo es innecesaria para la inferencia. La cuantificación convierte estos valores en formatos de menor precisión, como números de coma flotante de 16 bits (FP16) o enteros de 8 bits (INT8), lo que reduce eficazmente el tamaño del modelo y acelera la velocidad de ejecución sin comprometer significativamente la precisión.
El principal impulsor de la cuantificación es la necesidad de implementar una IA potente en hardware con recursos limitados. A medida que los modelos de visión por ordenador como YOLO26 se vuelven más complejos, sus exigencias computacionales aumentan. La cuantificación aborda tres cuellos de botella críticos:
Es importante diferenciar la cuantificación de otras técnicas de optimización, ya que modifican el modelo de manera distinta :
La cuantificación permite la visión artificial y la inteligencia artificial en diversos sectores en los que la eficiencia es fundamental.
Ultralytics simplifica el proceso de exportación, lo que permite a los desarrolladores convertir modelos como el innovador YOLO26 a formatos cuantificados. La Ultralytics también proporciona herramientas para gestionar estas implementaciones sin problemas.
El siguiente ejemplo muestra cómo exportar un modelo a TFLite con la cuantificación INT8 habilitada. Este proceso implica un paso de calibración en el que el modelo observa datos de muestra para determinar el rango dinámico óptimo para los valores cuantificados.
from ultralytics import YOLO
# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")
# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")
Los modelos optimizados se implementan con frecuencia utilizando estándares interoperables como ONNX o motores de inferencia de alto rendimiento como OpenVINO, lo que garantiza una amplia compatibilidad en diversos ecosistemas de hardware.