Glossaire

Lissage d'étiquettes

Améliorez la précision et la robustesse des modèles d'IA grâce au lissage d'étiquettes, une technique éprouvée pour améliorer la généralisation et réduire l'excès de confiance.

Le lissage d'étiquettes (Label Smoothing) est une technique de régularisation utilisée pendant l'entraînement des modèles d'apprentissage automatique, en particulier dans les tâches de classification. Il résout le problème de la surconfiance du modèle en empêchant celui-ci d'attribuer la probabilité totale de 1.0 à la classe correcte. Au lieu d'utiliser des étiquettes "dures" (où la classe correcte est 1 et toutes les autres sont 0), le lissage d'étiquettes crée des étiquettes "douces", distribuant une petite portion de la masse de probabilité aux autres classes. Cela encourage le modèle à être moins certain de ses prédictions, ce qui peut conduire à une meilleure généralisation et à une amélioration des performances sur des données non vues. La technique a notamment été utilisée dans des modèles très performants et est détaillée dans des articles tels que When Does Label Smoothing Help?.

Fonctionnement du lissage d'étiquettes

Dans un problème de classification typique d'apprentissage supervisé, les données d'entraînement sont constituées d'entrées et de leurs étiquettes correctes correspondantes. Par exemple, dans une tâche de classification d'images, une image de chat aurait l'étiquette « chat » représentée comme un vecteur one-hot encodé comme pour les classes [chat, chien, oiseau]. Lors du calcul de la fonction de perte, le modèle est pénalisé en fonction de l'écart entre sa prédiction et cette cible difficile.

Le lissage d'étiquettes modifie cette cible. Il réduit légèrement la probabilité cible pour la classe correcte (par exemple, à 0,9) et distribue la petite probabilité restante (0,1 dans ce cas) uniformément entre les classes incorrectes. Ainsi, la nouvelle cible "douce" pourrait ressembler à [0,9, 0,05, 0,05]. Ce petit changement décourage la couche logit finale d'un réseau neuronal de produire des valeurs extrêmement élevées pour une classe, ce qui aide à prévenir le surapprentissage. Ce processus peut être géré pendant l'entraînement du modèle à l'aide de plateformes comme Ultralytics HUB.

Avantages du lissage d'étiquettes (Label Smoothing)

L'avantage principal du lissage d'étiquettes est qu'il améliore la calibration du modèle. Les scores de confiance prédits d'un modèle bien calibré reflètent plus précisément la probabilité réelle d'exactitude. Ceci est crucial pour les applications où la compréhension de la certitude du modèle est importante, comme dans l'analyse d'images médicales. En empêchant la surconfiance, il améliore également la capacité du modèle à se généraliser à de nouvelles données, un objectif clé de tout projet d'apprentissage automatique. Cela se traduit souvent par une légère augmentation de la précision. Une meilleure généralisation conduit à des modèles plus robustes pour l'inférence en temps réel et le déploiement final du modèle.

Applications concrètes

Le lissage d'étiquettes est une technique simple mais efficace appliquée dans divers modèles de pointe.

Classification d'images à grande échelle : Les modèles comme Ultralytics YOLO entraînés pour les tâches de classification d'images sur des ensembles de données massifs tels que ImageNet utilisent souvent le lissage d'étiquettes. Ces ensembles de données peuvent parfois contenir des étiquettes bruitées ou incorrectes provenant du processus d'étiquetage des données. Le lissage d'étiquettes rend le modèle plus robuste à ce bruit d'étiquette, l'empêchant d'apprendre à être trop confiant quant à des étiquettes potentiellement erronées. Vous pouvez explorer une variété d'ensembles de données de classification pour vos projets.
Traitement du langage naturel (NLP) : Dans des tâches telles que la traduction automatique, il peut y avoir plusieurs traductions valides pour une seule phrase. Le lissage d'étiquettes, utilisé dans des modèles comme le Transformer, décourage le modèle d'attribuer une probabilité de 1.0 à un seul mot correct dans le vocabulaire, reconnaissant que d'autres mots pourraient également convenir. Ce concept est fondamental dans le NLP moderne et est abordé dans des ressources provenant d'institutions comme le Stanford NLP Group.