Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Cuantización de Modelos

Optimice el rendimiento de la IA con la cuantificación de modelos. Reduzca el tamaño, aumente la velocidad y mejore la eficiencia energética para implementaciones en el mundo real.

La cuantificación de modelos es un proceso de optimización crítico en el campo del aprendizaje automático que reduce la precisión de los números utilizados para representar los parámetros de un modelo. Al convertir estos parámetros —concretamente, los pesos y las activaciones— de números de punto flotante de alta precisión (normalmente de 32 bits, conocidos como FP32) a formatos de menor precisión como enteros de 8 bits (INT8), los desarrolladores pueden reducir significativamente el espacio de memoria y la complejidad computacional de un modelo. Esta transformación es esencial para implementar redes neuronales sofisticadas en hardware con recursos limitados , lo que garantiza que las aplicaciones de IA se ejecuten de manera eficiente en todo, desde teléfonos inteligentes hasta sensores IoT integrados.

La mecánica de la cuantización

En esencia, la cuantificación asigna un amplio rango de valores continuos a un conjunto de valores más pequeño y discreto. Durante la fase de entrenamiento, los modelos suelen requerir una alta precisión para capturar detalles minuciosos en los datos y actualizar los gradientes con exactitud. Sin embargo, durante la inferencia, la etapa en la que el modelo genera predicciones, este nivel de granularidad suele ser redundante.

Al comprimir estos valores, la cuantificación reduce la cantidad de ancho de banda de memoria necesario para recuperar los pesos del modelo y acelera las operaciones matemáticas . El hardware moderno, como la CPU y aceleradores especializados como las TPU, suelen incluir conjuntos de instrucciones dedicadas a la aritmética de enteros. Estas instrucciones son más rápidas y eficientes energéticamente que las operaciones en coma flotante, lo que ayuda a minimizar la latencia de la inferencia y a conservar la vida útil de la batería en aplicaciones móviles.

Enfoques primarios

Existen dos estrategias principales para aplicar la cuantificación, dependiendo de cuándo se produce la optimización en el ciclo de vida del desarrollo :

  • Cuantificación posterior al entrenamiento (PTQ): Este método se aplica una vez que el modelo ha sido completamente entrenado. Utiliza un pequeño conjunto de datos de calibración para determinar el rango dinámico de activaciones y pesos, asignándoles valores enteros. Es una forma rápida y eficaz de optimizar modelos para plataformas como TensorFlow .
  • Entrenamiento consciente de la cuantificación (QAT): En este enfoque, el modelo simula los efectos de la cuantificación (como los errores de redondeo) durante el propio proceso de entrenamiento . Esto permite a la red adaptar sus pesos a una menor precisión, lo que a menudo da como resultado una mayor retención de la precisión en comparación con el PTQ, especialmente en el caso de arquitecturas compactas.

Comparación con conceptos relacionados

Es importante diferenciar la cuantificación de otras técnicas de optimización, ya que modifican el modelo de manera distinta :

  • Cuantificación frente a poda: mientras que la cuantificación reduce el tamaño del archivo al disminuir el ancho de bits de los parámetros, la poda del modelo implica eliminar por completo las conexiones innecesarias (pesos) para crear una red dispersa. La poda altera la estructura del modelo, mientras que la cuantificación altera el tipo de datos.
  • Cuantificación frente a destilación de conocimientos: La destilación de conocimientos es una técnica de entrenamiento en la que un pequeño modelo «alumno» aprende a imitar a un gran modelo «maestro». La cuantificación se aplica a menudo al modelo alumno después de la destilación para mejorar aún más el rendimiento de la IA periférica.

Aplicaciones en el mundo real

La cuantificación permite la visión artificial y la IA en diversos sectores en los que la eficiencia es primordial.

  1. Sistemas autónomos: En la industria automovilística, los vehículos autónomos deben procesar datos visuales de cámaras y LiDAR en tiempo real. Los modelos cuantificados implementados en NVIDIA TensorRT permiten a estos vehículos detect y obstáculos con una latencia de milisegundos, lo que garantiza la seguridad de los pasajeros.
  2. Agricultura inteligente: los drones equipados con cámaras multiespectrales utilizan modelos cuantificados de detección de objetos para identificar enfermedades de los cultivos o supervisar las fases de crecimiento. La ejecución de estos modelos a nivel local en los sistemas integrados delos droneselimina la necesidad de conexiones móviles poco fiables en campos remotos.

Aplicación de la cuantificación con Ultralytics

Ultralytics simplifica el proceso de exportación, permitiendo a los desarrolladores convertir modelos como YOLO11 o el innovador YOLO26 a formatos cuantificados. El siguiente ejemplo muestra cómo exportar un modelo a TFLite la cuantificación INT8 habilitada, que gestiona automáticamente la calibración.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
model.export(format="tflite", int8=True, data="coco8.yaml")

Los modelos optimizados se implementan con frecuencia utilizando estándares interoperables como ONNX o motores de inferencia de alto rendimiento como OpenVINO, lo que garantiza una amplia compatibilidad en diversos ecosistemas de hardware.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora