Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Precisión Media

Descubra cómo la precisión media (FP16) acelera la IA con una computación más rápida, un uso reducido de la memoria y una implementación eficiente de los modelos.

La media precisión es un formato de número binario en coma flotante que ocupa 16 bits en la memoria del ordenador, comúnmente denominado FP16. comúnmente denominado FP16. En el campo del aprendizaje aprendizaje profundo, este formato es una alternativa al formato estándar de 32 bits de precisión simple (FP32) utilizado tradicionalmente para cálculos numéricos. En reducir el número de bits necesarios para representar cada número, la media precisión disminuye significativamente la presión del ancho de banda de la memoria y los requisitos de almacenamiento. de memoria y los requisitos de almacenamiento para pesos y activaciones del modelo. Esta eficiencia permite investigadores e ingenieros entrenar redes neuronales redes neuronales más grandes o desplegar modelos recursos limitados sin comprometer sustancialmente precisión de las predicciones.

La mecánica de la semiprecisión

El estándar IEEE 754 define la estructura de los números en coma flotante donde FP16 asigna 1 bit para el signo, 5 bits para el exponente y 10 bits para la fracción (mantisa). Esta representación compacta contrasta con FP32, que utiliza 8 bits para el exponente y 23 para la fracción. La principal ventaja de utilizar FP16 en visión por computador y otras tareas de IA es la aceleración de las operaciones matemáticas. Los aceleradores de hardware modernos, como NVIDIA Tensor Cores, están diseñados específicamente para realizar multiplicaciones matriciales de precisión media a velocidades significativamente superiores a las de las operaciones de precisión simple.

Sin embargo, el reducido número de bits implica un menor rango dinámico y una menor precisión. Esto puede provocar inestabilidad numérica, como gradientes de fuga, en los que los números demasiado pequeños para que el ordenador los represente claramente a partir de cero. Para mitigarlo, los desarrolladores suelen emplear estrategias de precisión mixta, que dinámicamente entre FP16 y FP32 durante el entrenamiento para mantener la estabilidad al tiempo que se aprovecha la velocidad de la semiprecisión.

Aplicaciones reales de la IA

La media precisión es omnipresente en los flujos de trabajo modernos de IA, especialmente en escenarios que requieren un alto rendimiento o una baja latencia. latencia.

  1. Despliegue de Edge AI: Al desplegar modelos en dispositivos de IA periféricos, como drones, cámaras móviles, la memoria y la duración de la batería son limitaciones importantes. Convertir un modelo como YOLO11 a FP16 reduce el tamaño del modelo en aproximadamente 50%, lo que le permite caber en la limitada RAM de sistemas integrados como el NVIDIA Jetson o la Raspberry Pi. Esto facilita una latencia de latencia de inferencia, lo que permite tiempo real en aplicaciones como la navegación autónoma.
  2. Entrenamiento de modelos a gran escala: Entrenamiento de arquitecturas masivas, como grandes modelos lingüísticos (LLM) o o los modelos de visión fundacional, requieren el procesamiento de terabytes de datos. La utilización de FP16 permite a los centros de datos duplicar el tamaño del lote cabe en memoria deGPU , lo que acorta drásticamente los ciclos de entrenamiento. Esta eficiencia es fundamental para la experimentación rápida y la iteración en arquitecturas de nueva generación, como YOLO26. de próxima generación, como YOLO26.

Implantación de la semiprecisión con Ultralytics

Marcos como PyTorch y bibliotecas como ultralytics facilitan el uso de la semiprecisión. El siguiente ejemplo muestra cómo exportar un modelo YOLO11 al TensorRT formato FP16, una práctica práctica habitual para optimizar la velocidad de inferencia en las GPU NVIDIA .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Export the model to TensorRT engine with half-precision enabled
# The 'half=True' argument ensures weights are converted to FP16
model.export(format="engine", half=True)

Distinción de términos relacionados

Para entender la semiprecisión es necesario distinguirla de las técnicas de optimización relacionadas que se encuentran en el glosario:

  • Media precisión frente a precisión mixta: Mientras que la media precisión se refiere específicamente al formato de datos de 16 bits, la precisión mixta es una técnica de entrenamiento que FP16 para cálculos pesados y FP32 para acumulaciones sensibles (como actualizaciones de peso) para evitar la pérdida de información. información.
  • Cuantización de media precisión vs. Cuantización de modelo Cuantización por modelo: La media precisión mantiene la representación en coma flotante, reduciendo simplemente el ancho de bits. La cuantificación suele convierte los pesos a formatos enteros, como INT8 (enteros de 8 bits), lo que ofrece aún mayor compresión y velocidad pero requiere técnicas de calibración cuidadosas como Formación consciente de la cuantización (QAT) para evitar la degradación de la precisión.
  • Media precisión frente a Bfloat16: Bfloat16 (Brain Floating Point) es un formato alternativo formato de 16 bits utilizado a menudo en las TPU. En conserva el exponente de 8 bits de FP32 para mantener el rango dinámico, pero sacrifica la precisión en la fracción, por lo que es generalmente más estable para el entrenamiento que el FP16 IEEE estándar sin necesidad de escalado de pérdidas.

Al dominar estos formatos, los desarrolladores pueden garantizar que sus estrategias de despliegue de modelos se optimizan requisitos específicos de hardware y rendimiento de sus proyectos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora