Optimice el rendimiento de la IA con la cuantificación de modelos. Reduzca el tamaño, aumente la velocidad y mejore la eficiencia energética para implementaciones en el mundo real.
La cuantificación de modelos es un proceso de optimización crítico en el campo del aprendizaje automático que reduce la precisión de los números utilizados para representar los parámetros de un modelo. Al convertir estos parámetros —concretamente, los pesos y las activaciones— de números de punto flotante de alta precisión (normalmente de 32 bits, conocidos como FP32) a formatos de menor precisión como enteros de 8 bits (INT8), los desarrolladores pueden reducir significativamente el espacio de memoria y la complejidad computacional de un modelo. Esta transformación es esencial para implementar redes neuronales sofisticadas en hardware con recursos limitados , lo que garantiza que las aplicaciones de IA se ejecuten de manera eficiente en todo, desde teléfonos inteligentes hasta sensores IoT integrados.
En esencia, la cuantificación asigna un amplio rango de valores continuos a un conjunto de valores más pequeño y discreto. Durante la fase de entrenamiento, los modelos suelen requerir una alta precisión para capturar detalles minuciosos en los datos y actualizar los gradientes con exactitud. Sin embargo, durante la inferencia, la etapa en la que el modelo genera predicciones, este nivel de granularidad suele ser redundante.
Al comprimir estos valores, la cuantificación reduce la cantidad de ancho de banda de memoria necesario para recuperar los pesos del modelo y acelera las operaciones matemáticas . El hardware moderno, como la CPU y aceleradores especializados como las TPU, suelen incluir conjuntos de instrucciones dedicadas a la aritmética de enteros. Estas instrucciones son más rápidas y eficientes energéticamente que las operaciones en coma flotante, lo que ayuda a minimizar la latencia de la inferencia y a conservar la vida útil de la batería en aplicaciones móviles.
Existen dos estrategias principales para aplicar la cuantificación, dependiendo de cuándo se produce la optimización en el ciclo de vida del desarrollo :
Es importante diferenciar la cuantificación de otras técnicas de optimización, ya que modifican el modelo de manera distinta :
La cuantificación permite la visión artificial y la IA en diversos sectores en los que la eficiencia es primordial.
Ultralytics simplifica el proceso de exportación, permitiendo a los desarrolladores convertir modelos como YOLO11 o el innovador YOLO26 a formatos cuantificados. El siguiente ejemplo muestra cómo exportar un modelo a TFLite la cuantificación INT8 habilitada, que gestiona automáticamente la calibración.
from ultralytics import YOLO
# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")
# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
model.export(format="tflite", int8=True, data="coco8.yaml")
Los modelos optimizados se implementan con frecuencia utilizando estándares interoperables como ONNX o motores de inferencia de alto rendimiento como OpenVINO, lo que garantiza una amplia compatibilidad en diversos ecosistemas de hardware.