Découvrez comment le lissage des étiquettes empêche le surajustement et améliore la généralisation des modèles. Découvrez comment mettre en œuvre cette technique avec Ultralytics pour obtenir de meilleurs résultats.
Le lissage des étiquettes est une technique de régularisation largement utilisée dans l'apprentissage automatique pour améliorer la généralisation des modèles et éviter le surapprentissage. Lors de l'entraînement des réseaux neuronaux, l'objectif est généralement de minimiser l'erreur entre les prédictions et la vérité terrain. Cependant, si un modèle devient trop confiant dans ses prédictions (en attribuant une probabilité proche de 100 % à une seule classe), il commence souvent à mémoriser le bruit spécifique dans les données d'entraînement plutôt qu'à apprendre des modèles robustes. Ce phénomène, connu sous le nom de surajustement, dégrade les performances sur de nouveaux exemples non vus. Le lissage des étiquettes remédie à ce problème en décourageant le modèle de faire des prédictions avec une certitude absolue, en indiquant essentiellement au réseau qu'il existe toujours une petite marge d'erreur.
Pour comprendre comment fonctionne le lissage des étiquettes, il est utile de le comparer aux cibles « rigides » standard. Dans
les méthodes traditionnelles apprentissage supervisé, les étiquettes de classification
sont généralement représentées via codage one-hot. Par exemple,
dans une tâche consistant à distinguer les chats des chiens, une image de « chien » aurait un vecteur cible de
[0, 1]. Pour correspondre parfaitement à cela, le modèle pousse ses scores internes, appelés
logits, vers l'infini, ce qui peut entraîner
des gradients instables et une incapacité à s'adapter.
Le lissage des étiquettes remplace ces 1 et 0 rigides par des cibles « souples ». Au lieu d'une probabilité cible de
1.0, la classe correcte pourrait être attribuée 0.9, tandis que la masse de probabilité restante
(0.1) est répartie uniformément entre les classes incorrectes. Ce léger décalage modifie l'objectif de
la fonction de perte, comme
entropie croisée, empêchant ainsi le
fonction d'activation (généralement
Softmax) de saturer. Le résultat est un modèle qui apprend
des regroupements plus serrés de classes dans l'espace des caractéristiques et produit de meilleurs
calibrage du modèle, ce qui signifie que les
probabilités prédites reflètent plus fidèlement la vraisemblance réelle de justesse.
Cette technique est particulièrement cruciale dans les domaines où l'ambiguïté des données est inhérente ou lorsque les ensembles de données sont sujets à des erreurs d'étiquetage .
Les cadres modernes d'apprentissage profond simplifient l'application de cette technique. À l'aide du
ultralytics package, vous pouvez facilement intégrer le lissage des étiquettes dans votre pipeline d'entraînement pour
classification des images ou des tâches de détection. Cela
est souvent fait pour tirer le maximum de performances de modèles de pointe tels que
YOLO26.
L'exemple suivant montre comment entraîner un modèle de classification avec le lissage des étiquettes activé :
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Train with label_smoothing set to 0.1
# The target for the correct class becomes 1.0 - 0.5 * 0.1 = 0.95 (depending on implementation specifics)
model.train(data="mnist", epochs=5, label_smoothing=0.1)
Il est utile de distinguer le lissage des étiquettes des autres stratégies de régularisation afin de comprendre quand l'utiliser.
En atténuant le problème de gradient disparaissant dans les couches finales et en encourageant le modèle à apprendre des caractéristiques plus robustes, le lissage des étiquettes reste un élément essentiel des architectures modernes d' apprentissage profond.