Glosario

Precisión Mixta

¡Aumenta la eficiencia del aprendizaje profundo con el entrenamiento de precisión mixta! Logra velocidades más rápidas, reduce el uso de memoria y ahorra energía sin sacrificar la precisión.

La precisión mixta es una técnica utilizada en el aprendizaje profundo para acelerar el entrenamiento del modelo y reducir el consumo de memoria. Implica el uso de una combinación de formatos numéricos de menor precisión, como el punto flotante de 16 bits (FP16), y formatos de mayor precisión, como el punto flotante de 32 bits (FP32), durante el cálculo. Al utilizar estratégicamente números de menor precisión para ciertas partes del modelo, como la multiplicación de pesos, y mantener los componentes críticos como las actualizaciones de pesos en una precisión más alta, el entrenamiento de precisión mixta puede acelerar significativamente el rendimiento en las GPU modernas sin una pérdida sustancial en la precisión del modelo.

Cómo funciona la precisión mixta

La idea central detrás de la precisión mixta es aprovechar la velocidad y la eficiencia de memoria de los tipos de datos de menor precisión. El hardware moderno, especialmente las GPU NVIDIA con Tensor Cores, puede realizar operaciones con números de 16 bits mucho más rápido que con números de 32 bits. El proceso generalmente implica tres pasos clave:

Conversión a menor precisión: La mayoría de las operaciones del modelo, en particular las multiplicaciones de matrices y las convoluciones que consumen muchos recursos computacionales, se realizan utilizando aritmética de media precisión (FP16). Esto reduce la huella de memoria y acelera los cálculos.
Mantenimiento de una copia maestra de los pesos: Para mantener la precisión y la estabilidad del modelo, se conserva una copia maestra de los pesos del modelo en el formato estándar de punto flotante de 32 bits (FP32). Esta copia maestra se utiliza para acumular gradientes y actualizar los pesos durante el proceso de entrenamiento.
Escalado de la pérdida: Para evitar el subdesbordamiento numérico, donde los valores de gradiente pequeños se convierten en cero cuando se convierten a FP16, se utiliza una técnica llamada escalado de la pérdida. Implica multiplicar la pérdida por un factor de escala antes de la retropropagación para mantener los valores de gradiente dentro de un rango representable para FP16. Antes de que se actualicen los pesos, los gradientes se vuelven a reducir.

Los frameworks de deep learning como PyTorch y TensorFlow tienen soporte integrado para la precisión mixta automática, lo que facilita su implementación.

Aplicaciones y ejemplos

La precisión mixta se adopta ampliamente en el entrenamiento de modelos de aprendizaje automático (ML) a gran escala, donde la eficiencia es primordial.

Entrenamiento de modelos de lenguaje grandes (LLM): Modelos como GPT-3 y BERT tienen miles de millones de parámetros. Entrenarlos usando solo FP32 requeriría cantidades prohibitivas de memoria de GPU y tiempo. La precisión mixta hace que el entrenamiento de tales modelos fundacionales sea factible al reducir significativamente las necesidades de memoria y acelerar los cálculos. Esto permite a los investigadores iterar más rápido y construir modelos de lenguaje aún más potentes.
Aceleración de Modelos de Visión Artificial: En visión artificial (CV), la precisión mixta acelera el entrenamiento de modelos complejos como las Redes Neuronales Convolucionales (CNN) y los Vision Transformers (ViT). Para tareas como la detección de objetos y la segmentación de imágenes, los modelos Ultralytics YOLO, incluido el último Ultralytics YOLO11, aprovechan la precisión mixta para una convergencia más rápida. Esto es especialmente útil para el ajuste de hiperparámetros y el desarrollo rápido dentro de plataformas como Ultralytics HUB. Un entrenamiento más rápido también facilita la experimentación más rápida en grandes conjuntos de datos como COCO. La precisión mixta también se puede utilizar durante la inferencia para acelerar el despliegue del modelo, particularmente al exportar a formatos como TensorRT, que está fuertemente optimizado para precisiones más bajas.

Conceptos Relacionados

La precisión mixta es una de las varias técnicas de optimización utilizadas para hacer que los modelos de aprendizaje profundo sean más eficientes. Es importante distinguirla de conceptos relacionados:

Cuantificación de modelos: La cuantificación reduce el tamaño del modelo y el costo computacional al convertir números de punto flotante (como FP32 o FP16) en formatos enteros de bits más bajos, como INT8. Si bien la precisión mixta utiliza diferentes formatos de punto flotante durante el entrenamiento, la cuantificación se aplica típicamente después del entrenamiento (cuantificación posterior al entrenamiento) o durante el mismo (entrenamiento consciente de la cuantificación) para optimizar para la inferencia, especialmente en dispositivos perimetrales.
Poda de modelos: La poda es una técnica que implica la eliminación de conexiones (pesos) redundantes o sin importancia de una red neuronal. A diferencia de la precisión mixta, que cambia el formato numérico de los pesos, la poda altera la arquitectura del modelo en sí para reducir su tamaño y complejidad. Estas técnicas se pueden utilizar juntas para lograr ganancias de rendimiento aún mayores.

Precisión Mixta

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Cómo funciona la precisión mixta

Aplicaciones y ejemplos

Conceptos Relacionados

Leer más en esta categoría

Implantar modelos YOLO de Ultralytics mediante la integración de ExecuTorch

Lo más destacado de Ultralytics en la Conferencia PyTorch 2025

Aprendizaje autosupervisado para eliminar el ruido de las imágenes

Únete a la comunidad de Ultralytics