Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Cuantización de Modelos

Descubra cómo la cuantificación de modelos optimiza Ultralytics para la IA periférica. Descubra cómo reducir la memoria, disminuir la latencia y exportar modelos INT8 para una inferencia más rápida.

La cuantificación de modelos es una sofisticada técnica de optimización de modelos que se utiliza para reducir los costes computacionales y de memoria que supone ejecutar modelos de aprendizaje profundo. En los flujos de trabajo de entrenamiento estándar, las redes neuronales suelen almacenar parámetros (weights and biases) y mapas de activación utilizando números de punto flotante de 32 bits (FP32). Si bien esta alta precisión garantiza cálculos precisos durante el entrenamiento, a menudo es innecesaria para la inferencia. La cuantificación convierte estos valores en formatos de menor precisión, como números de coma flotante de 16 bits (FP16) o enteros de 8 bits (INT8), lo que reduce eficazmente el tamaño del modelo y acelera la velocidad de ejecución sin comprometer significativamente la precisión.

Por qué es importante la cuantificación

El principal impulsor de la cuantificación es la necesidad de implementar una IA potente en hardware con recursos limitados. A medida que los modelos de visión por ordenador como YOLO26 se vuelven más complejos, sus exigencias computacionales aumentan. La cuantificación aborda tres cuellos de botella críticos:

  • Huella de memoria: al reducir el ancho de bits de los pesos (por ejemplo, de 32 bits a 8 bits), los requisitos de almacenamiento del modelo se reducen hasta cuatro veces. Esto es vital para las aplicaciones móviles, donde el tamaño de la aplicación está restringido.
  • Latencia de inferencia: Las operaciones de menor precisión son computacionalmente más baratas. Los procesadores modernos, especialmente aquellos con unidades de procesamiento neuronal (NPU) especializadas, pueden ejecutar operaciones INT8 mucho más rápido que FP32, lo que reduce significativamente la latencia de inferencia.
  • Consumo de energía: al mover menos datos a través de la memoria y realizar operaciones aritméticas más simples, se consume menos energía, lo que prolonga la duración de la batería en dispositivos portátiles y vehículos autónomos.

Comparación con conceptos relacionados

Es importante diferenciar la cuantificación de otras técnicas de optimización, ya que modifican el modelo de manera distinta :

  • Cuantificación frente a poda: mientras que la cuantificación reduce el tamaño del archivo al disminuir el ancho de bits de los parámetros, la poda del modelo implica eliminar por completo las conexiones innecesarias (pesos) para crear una red dispersa. La poda altera la estructura del modelo, mientras que la cuantificación altera la representación de los datos.
  • Cuantificación frente a destilación de conocimientos: La destilación de conocimientos es una técnica de entrenamiento en la que un pequeño modelo «alumno» aprende a imitar a un gran modelo «maestro». La cuantificación se aplica a menudo al modelo alumno después de la destilación para mejorar aún más el rendimiento de la IA periférica.

Aplicaciones en el mundo real

La cuantificación permite la visión artificial y la inteligencia artificial en diversos sectores en los que la eficiencia es fundamental.

  1. Sistemas autónomos: En la industria automovilística, los coches autónomos deben procesar datos visuales de cámaras y LiDAR en tiempo real. Los modelos cuantificados implementados en NVIDIA TensorRT permiten a estos vehículos detect y obstáculos con una latencia de milisegundos, lo que garantiza la seguridad de los pasajeros.
  2. Agricultura inteligente: los drones equipados con cámaras multiespectrales utilizan modelos cuantificados de detección de objetos para identificar enfermedades de los cultivos o supervisar las fases de crecimiento. La ejecución de estos modelos a nivel local en los sistemas integrados delos droneselimina la necesidad de conexiones móviles poco fiables en campos remotos.

Aplicación de la cuantificación con Ultralytics

Ultralytics simplifica el proceso de exportación, lo que permite a los desarrolladores convertir modelos como el innovador YOLO26 a formatos cuantificados. La Ultralytics también proporciona herramientas para gestionar estas implementaciones sin problemas.

El siguiente ejemplo muestra cómo exportar un modelo a TFLite con la cuantificación INT8 habilitada. Este proceso implica un paso de calibración en el que el modelo observa datos de muestra para determinar el rango dinámico óptimo para los valores cuantificados.

from ultralytics import YOLO

# Load a standard YOLO26 model
model = YOLO("yolo26n.pt")

# Export to TFLite format with INT8 quantization
# The 'int8' argument triggers Post-Training Quantization
# 'data' provides the calibration dataset needed for mapping values
model.export(format="tflite", int8=True, data="coco8.yaml")

Los modelos optimizados se implementan con frecuencia utilizando estándares interoperables como ONNX o motores de inferencia de alto rendimiento como OpenVINO, lo que garantiza una amplia compatibilidad en diversos ecosistemas de hardware.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora