Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Cuantización de Modelos

Optimice el rendimiento de la IA con la cuantificación de modelos. Reduzca el tamaño, aumente la velocidad y mejore la eficiencia energética para implementaciones en el mundo real.

La cuantización de modelos es una técnica transformadora del aprendizaje automático diseñada para reducir los costes computacionales y de memoria de redes neuronales. Al convertir los parámetros del modelo -específicamente pesos y activaciones- de números de coma flotante de alta precisión (normalmente 32 bits, conocidos como FP32) a formatos de menor precisión, como enteros de 8 bits (INT8), los desarrolladores pueden reducir significativamente el tamaño del archivo del modelo. modelo. Este proceso es esencial para despliegue eficiente de modelos en hardware con recursos limitados, garantizando que las sofisticadas capacidades de IA puedan ejecutarse sin problemas en todo tipo de dispositivos, desde smartphones hasta sensores industriales. sensores industriales.

¿Cómo funciona la cuantización de modelos?

El mecanismo central de la cuantización consiste en convertir una amplia gama de valores continuos en un conjunto más pequeño de valores discretos. discretos. En un modelo típico de aprendizaje profundo, los parámetros se almacenan como números de coma flotante de 32 bits para mantener una alta precisión durante la fase de entrenamiento. precisión durante la fase de entrenamiento. Sin embargo, durante la Sin embargo, durante la inferencia -la fase en la que el modelo realiza predicciones- este nivel de precisión suele ser innecesario.

La cuantización comprime estos valores, lo que reduce el ancho de banda de memoria necesario para obtener los pesos del modelo. pesos del modelo y acelera las operaciones matemáticas. El hardware moderno, incluidas las CPU y aceleradores especializados como las GPU de instrucciones específicas para la aritmética de enteros, que son más rápidas y energéticamente punto flotante. Esta optimización ayuda a minimizar latencia de inferencia, proporcionando una experiencia en aplicaciones en tiempo real.

Tipos de cuantización

Existen dos enfoques principales para aplicar esta optimización, cada uno de los cuales sirve para diferentes etapas del ciclo de vida del desarrollo desarrollo:

  • Cuantificación posterior al entrenamiento (PTQ): Este método se aplica después de que el modelo haya sido completamente entrenado. En requiere un conjunto de datos de calibración para determinar el rango dinámico de activaciones y pesos. Herramientas como TensorFlow Lite ofrecen un para PTQ, lo que lo convierte en una opción popular para optimizaciones rápidas.
  • Entrenamiento consciente de la cuantización (QAT): En este enfoque, el modelo simula los efectos de la cuantización durante el propio proceso de entrenamiento. Mediante la introducción de nodos de cuantización "falsos", la red aprende a adaptarse a la menor precisión, lo que a menudo da como resultado una mejor retención de la precisión en comparación con PTQ. Puede obtener más información más sobre esta técnica específica en nuestra Entrenamiento consciente de la cuantización (QAT) (QAT).

Aplicaciones en el mundo real

La cuantificación es la piedra angular de la IA Edge, ya que permite realizar tareas complejas se realicen localmente en los dispositivos sin depender de la conectividad en la nube.

  1. Visión por ordenador móvil: Las aplicaciones para teléfonos inteligentes que ofrecen funciones como desenfoque de fondo en tiempo real o o filtros faciales se basan en modelos cuantizados. Por ejemplo, ejecutar un modelo de modelo de detección de objetos en un teléfono eficiencia para evitar el agotamiento de la batería y el sobrecalentamiento.
  2. IoT industrial y robótica: En robótica, las unidades autónomas suelen funcionar con batería y utilizan procesadores integrados como el NVIDIA Jetson. Los modelos cuantificados procesar los datos visuales para la navegación y la evitación de obstáculos con un retardo mínimo, lo que es fundamental para la seguridad de los vehículos autónomos. en los vehículos autónomos.

Aplicación de la cuantificación con Ultralytics YOLO

El marco de trabajo Ultralytics simplifica el proceso de exportación de modelos a formatos que facilitan la cuantificación. El siguiente ejemplo muestra cómo exportar un modelo YOLO11 a TFLite con la cuantización INT8 activada. Este proceso gestiona automáticamente la calibración utilizando los datos especificados.

from ultralytics import YOLO

# Load the standard YOLO11 model
model = YOLO("yolo11n.pt")

# Export to TFLite format with INT8 quantization
# The 'data' argument provides calibration images
model.export(format="tflite", int8=True, data="coco8.yaml")

Cuantificación vs. Otras Técnicas de Optimización

Resulta útil distinguir la cuantificación de otras estrategias de optimización de modelos, ya que a menudo se utilizan conjuntamente pero funcionan de forma diferente:

  • Cuantización frente a poda: Mientras que la cuantización reduce la precisión de los pesos, la poda de modelos consiste en eliminar innecesarias (pesos) para crear una red dispersa. La poda cambia la estructura, mientras que la cuantización cambia el tipo de datos.
  • Cuantización frente a destilación: La destilación del conocimiento entrena a un modelo de alumno para imitar un modelo de profesor más grande. La cuantificación puede aplicarse después al modelo del alumno para reducir aún más su tamaño. para reducir aún más su tamaño.
  • Cuantización frente a precisión mixta: La precisión mix ta es principalmente una técnica de entrenamiento que utiliza una mezcla de FP16 y FP32 para acelerar el entrenamiento y reducir el uso de memoria en las GPU, mientras que la cuantificación es es una optimización en tiempo de inferencia que utiliza números enteros.

Evolución futura

A medida que los aceleradores de hardware se especializan, la importancia de la cuantización sigue creciendo. La investigación futura Ultralytics como el próximo YOLO26, tiene como objetivo aumentar la eficiencia la eficiencia mediante el diseño de arquitecturas que sean nativamente robustas a la cuantización agresiva, garantizando que visión por ordenador de alto rendimiento sea accesible incluso en los dispositivos más pequeños.

Para una mayor compatibilidad, los modelos cuantificados suelen desplegarse utilizando normas interoperables como ONNX o motores de inferencia optimizados como TensorRT y OpenVINO.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora