Glosario

Suavizado de etiquetas

Mejore la precisión y la solidez de los modelos de IA con el suavizado de etiquetas, una técnica de eficacia probada para mejorar la generalización y reducir el exceso de confianza.

El suavizado de etiquetas es una técnica de regularización utilizada durante el entrenamiento de modelos de aprendizaje automático, especialmente en tareas de clasificación. Aborda el problema del exceso de confianza del modelo impidiendo que éste asigne toda la probabilidad de 1,0 a la clase correcta. En lugar de utilizar etiquetas "duras" (en las que la clase correcta es 1 y todas las demás son 0), el Suavizado de etiquetas crea etiquetas "blandas", distribuyendo una pequeña parte de la masa de probabilidad a las demás clases. Esto anima al modelo a estar menos seguro de sus predicciones, lo que puede conducir a una mejor generalización y a un mejor rendimiento en datos no vistos. Esta técnica se ha utilizado sobre todo en modelos de alto rendimiento y se detalla en artículos como When Does Label Smoothing Help?

Cómo funciona el alisado de etiquetas

En un problema típico de clasificación de aprendizaje supervisado, los datos de entrenamiento consisten en entradas y sus correspondientes etiquetas correctas. Por ejemplo, en una tarea de clasificación de imágenes, una imagen de un gato tendría la etiqueta "gato" representada como un vector codificado de un solo golpe como para las clases [gato, perro, pájaro]. Al calcular la función de pérdida, el modelo se penaliza en función de lo lejos que esté su predicción de este objetivo difícil.

El Suavizado de etiquetas modifica este objetivo. Reduce ligeramente la probabilidad del objetivo para la clase correcta (por ejemplo, a 0,9) y distribuye la pequeña probabilidad restante (0,1 en este caso) uniformemente entre las clases incorrectas. Así, el nuevo objetivo "suave" podría ser [0,9, 0,05, 0,05]. Este pequeño cambio disuade a la capa logit final de una red neuronal de producir valores extremadamente grandes para una clase, lo que ayuda a evitar el sobreajuste. Este proceso puede gestionarse durante el entrenamiento del modelo utilizando plataformas como Ultralytics HUB.

Ventajas del alisado de etiquetas

La principal ventaja del suavizado de etiquetas es que mejora la calibración del modelo. Las puntuaciones de confianza predichas de un modelo bien calibrado reflejan con mayor precisión la verdadera probabilidad de corrección. Esto es crucial para aplicaciones en las que es importante conocer la certeza del modelo, como en el análisis de imágenes médicas. Al evitar el exceso de confianza, también mejora la capacidad del modelo para generalizar a nuevos datos, un objetivo clave de cualquier proyecto de aprendizaje automático. Esto suele traducirse en un ligero aumento de la precisión. Una mejor generalización conduce a modelos más robustos para la inferencia en tiempo real y el despliegue final del modelo.

Aplicaciones reales

El suavizado de etiquetas es una técnica sencilla pero eficaz que se aplica en varios modelos del estado de la técnica.

  1. Clasificación de imágenes a gran escala: Los modelos como Ultralytics YOLO entrenados para tareas de clasificación de imágenes en conjuntos de datos masivos como ImageNet suelen utilizar el suavizado de etiquetas. En ocasiones, estos conjuntos de datos pueden contener etiquetas ruidosas o incorrectas procedentes del proceso de etiquetado de datos. El suavizado de etiquetas hace que el modelo sea más resistente a este ruido de etiquetas, evitando que aprenda a confiar demasiado en etiquetas potencialmente erróneas. Puede explorar diversos conjuntos de datos de clasificación para sus proyectos.
  2. Procesamiento del Lenguaje Natural (PLN): En tareas como la traducción automática, puede haber múltiples traducciones válidas para una misma frase. El suavizado de etiquetas, utilizado en modelos como el Transformer, disuade al modelo de asignar una probabilidad de 1,0 a una única palabra correcta del vocabulario, reconociendo que otras palabras también podrían ser adecuadas. Este concepto es fundamental en la PNL moderna y se analiza en recursos de instituciones como el Stanford NLP Group.

Suavizado de etiquetas frente a conceptos afines

Es importante diferenciar el Suavizado de Etiquetas de otras técnicas de regularización.

  • Etiquetas duras: Este es el enfoque estándar en el que el modelo se entrena con certeza absoluta (100% para la clase correcta). El suavizado de etiquetas es una alternativa directa.
  • Aumento de datos: Es otra técnica de regularización que crea nuevos ejemplos de entrenamiento aplicando transformaciones a los datos existentes. Aumenta la diversidad del conjunto de datos, mientras que el Suavizado de Etiquetas modifica los propios valores objetivo. Puede encontrar guías para el aumento de datos YOLO en la documentación de Ultralytics.
  • Desactivación: Este método desactiva aleatoriamente una fracción de neuronas durante cada paso de entrenamiento para evitar coadaptaciones complejas. Modifica la arquitectura del modelo durante el entrenamiento, mientras que Label Smoothing modifica el cálculo de pérdidas. En un artículo de GeeksforGeeks sobre este tema se profundiza en el tema.
  • Destilación de conocimientos: En esta técnica, un modelo "alumno" más pequeño se entrena utilizando las etiquetas blandas producidas por un modelo "maestro" más grande y preentrenado. Aunque también utiliza etiquetas blandas, la fuente de estas etiquetas son las predicciones de otro modelo, no una simple heurística aplicada a las etiquetas de la verdad sobre el terreno como en el Suavizado de etiquetas. El artículo original Distilling the Knowledge in a Neural Network proporciona una comprensión básica de este concepto.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles