Glossaire

Lissage des étiquettes

Améliore la précision et la robustesse des modèles d'IA grâce au lissage des étiquettes - une technique éprouvée pour améliorer la généralisation et réduire l'excès de confiance.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Le lissage des étiquettes est une technique de régularisation utilisée principalement dans les tâches de classification au sein de l'apprentissage automatique (ML) et de l'apprentissage profond (DL). Son objectif principal est d'empêcher les modèles de devenir trop confiants dans leurs prédictions basées sur les données de formation. Dans le cadre d'une formation standard à la classification utilisant l'apprentissage supervisé, les modèles sont souvent formés à l'aide d'étiquettes "dures", généralement représentées dans un format codé à un coup où la classe correcte se voit attribuer une probabilité de 1 et toutes les autres classes se voient attribuer 0. Le lissage des étiquettes modifie ces cibles dures en cibles "douces", en réduisant légèrement la confiance attribuée à la classe correcte et en répartissant une petite partie de la masse de probabilité sur les classes incorrectes. Cela encourage le modèle à être moins certain et à potentiellement mieux se généraliser à des données inédites.

Comment fonctionne le lissage des étiquettes

Au lieu d'utiliser une valeur stricte de 1 pour la bonne classe et de 0 pour les autres (codage à une touche), le lissage des étiquettes ajuste ces probabilités cibles. Par exemple, si nous avons K classes et un facteur de lissage alphala probabilité cible pour la classe correcte devient 1 - alphaet la probabilité pour chaque classe incorrecte devient alpha / (K-1). Ce petit ajustement signifie que le modèle est pénalisé s'il attribue une probabilité extrêmement élevée (proche de 1) à une seule classe pendant l'entraînement, car l'étiquette cible elle-même n'exprime pas une certitude absolue. Cette technique a notamment été discutée dans le cadre de la formation de modèles avancés de classification d'images dans la revue "Repenser l'architecture Inception pour la vision par ordinateur" papier.

Avantages du lissage des étiquettes

La mise en œuvre du lissage des étiquettes peut offrir plusieurs avantages :

  • Meilleure généralisation : En empêchant le modèle de devenir trop spécialisé sur les modèles exacts des données d'apprentissage (en réduisant le surajustement), il donne souvent de meilleurs résultats sur de nouvelles données inédites. La généralisation est un objectif clé de la ML.
  • Meilleur étalonnage des modèles : Les modèles formés avec le lissage des étiquettes ont tendance à produire des scores de probabilité qui reflètent mieux la véritable probabilité que la prédiction soit correcte. Cela signifie qu'une confiance prédite de 80 % a plus de chances de correspondre à une précision réelle de 80 %. Il est essentiel de comprendre l'étalonnage des modèles pour obtenir des systèmes d'intelligence artificielle fiables.
  • Réduction de l'excès de confiance : Il s'attaque directement au problème des modèles qui attribuent une certitude quasi absolue aux prédictions, ce qui peut être problématique dans les applications du monde réel où l'incertitude existe. L'excès de confiance peut conduire à une mauvaise prise de décision.
  • Effet de régularisation : Il agit comme une forme de régularisation, similaire à des techniques telles que l'abandon ou la décroissance des poids, en ajoutant du bruit aux étiquettes, contraignant ainsi la complexité des poids du modèle appris.

Applications et exemples

Le lissage des étiquettes est largement applicable dans les scénarios de classification dans divers domaines :

  1. Classification d'images : Dans les tâches de classification d'images à grande échelle, telles que la formation sur l'ensemble de données ImageNet, le lissage des étiquettes aide les modèles à mieux se généraliser et à atteindre une plus grande précision sur les ensembles de validation. Les modèles tels que Vision Transformers (ViT) bénéficient souvent de cette technique pendant la formation. Tu peux former des modèles de classification à l'aide d'outils tels que le HUBUltralytics .
  2. Traitement du langage naturel (NLP) : Dans des tâches telles que la traduction automatique ou la classification de textes, où des modèles comme Transformers sont utilisés, le lissage des étiquettes peut améliorer les performances en empêchant le modèle de devenir trop certain des prédictions ou classifications de mots spécifiques, en particulier compte tenu de l'ambiguïté inhérente au langage.
  3. Reconnaissance de la parole : Comme pour le NLP, les modèles de reconnaissance vocale peuvent bénéficier d'un lissage des étiquettes pour gérer les variations de prononciation et les inexactitudes potentielles dans les transcriptions au sein des données d'apprentissage.

Bien qu'elles ne soient pas toujours explicitement détaillées pour chaque architecture, les techniques comme le lissage des étiquettes font souvent partie des recettes d'entraînement standard pour les modèles de pointe, y compris potentiellement les modèles de détection d'objets comme... Ultralytics YOLO au cours de leurs étapes de classification, bien que son impact puisse varier en fonction de la tâche spécifique et de l'ensemble de données.

Concepts apparentés

  • Encodage One-Hot : La méthode standard de représentation des étiquettes catégorielles où le lissage des étiquettes introduit une modification. Le codage one-hot attribue 1 à la vraie classe et 0 aux autres.
  • Distillation des connaissances : Cette technique utilise également des cibles souples, mais l'objectif est différent. La distillation des connaissances utilise les sorties de probabilité d'un modèle "enseignant" plus grand et préformé comme étiquettes souples pour former un modèle "étudiant" plus petit, en transférant les connaissances apprises. Le lissage des étiquettes est une technique de régularisation autonome appliquée pendant la formation standard.
  • Fonctions de perte : Le lissage des étiquettes est généralement utilisé avec des fonctions de perte telles que l'entropie croisée, en modifiant la distribution cible par rapport à laquelle la perte est calculée.
  • Régularisation : Elle fait partie de la catégorie plus large des techniques de régularisation visant à améliorer la généralisation du modèle et à empêcher le surajustement. Parmi les autres exemples, on peut citer la régularisation Dropout et L1/L2.

Considérations

Bien que bénéfique, le lissage des étiquettes doit être appliqué avec précaution. Le facteur de lissage (alpha) est un hyperparamètre qui doit être ajusté ; une valeur trop petite peut avoir peu d'effet, tandis qu'une valeur trop grande peut entraver l'apprentissage en rendant les étiquettes trop peu informatives. Son impact sur le calibrage du modèle, bien que souvent positif, doit être évalué pour l'application spécifique, ce qui peut nécessiter des méthodes de calibrage post-hoc dans certains cas. C'est un outil simple mais efficace souvent employé dans les cadres d'apprentissage profond modernes comme PyTorch et TensorFlow.

Tout lire