Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Lissage d'étiquettes

Découvrez comment le lissage des étiquettes empêche le surajustement et améliore la généralisation des modèles. Découvrez comment mettre en œuvre cette technique avec Ultralytics pour obtenir de meilleurs résultats.

Le lissage des étiquettes est une technique de régularisation largement utilisée dans l'apprentissage automatique pour améliorer la généralisation des modèles et éviter le surapprentissage. Lors de l'entraînement des réseaux neuronaux, l'objectif est généralement de minimiser l'erreur entre les prédictions et la vérité terrain. Cependant, si un modèle devient trop confiant dans ses prédictions (en attribuant une probabilité proche de 100 % à une seule classe), il commence souvent à mémoriser le bruit spécifique dans les données d'entraînement plutôt qu'à apprendre des modèles robustes. Ce phénomène, connu sous le nom de surajustement, dégrade les performances sur de nouveaux exemples non vus. Le lissage des étiquettes remédie à ce problème en décourageant le modèle de faire des prédictions avec une certitude absolue, en indiquant essentiellement au réseau qu'il existe toujours une petite marge d'erreur.

Les mécanismes des cibles vulnérables

Pour comprendre comment fonctionne le lissage des étiquettes, il est utile de le comparer aux cibles « rigides » standard. Dans les méthodes traditionnelles apprentissage supervisé, les étiquettes de classification sont généralement représentées via codage one-hot. Par exemple, dans une tâche consistant à distinguer les chats des chiens, une image de « chien » aurait un vecteur cible de [0, 1]. Pour correspondre parfaitement à cela, le modèle pousse ses scores internes, appelés logits, vers l'infini, ce qui peut entraîner des gradients instables et une incapacité à s'adapter.

Le lissage des étiquettes remplace ces 1 et 0 rigides par des cibles « souples ». Au lieu d'une probabilité cible de 1.0, la classe correcte pourrait être attribuée 0.9, tandis que la masse de probabilité restante (0.1) est répartie uniformément entre les classes incorrectes. Ce léger décalage modifie l'objectif de la fonction de perte, comme entropie croisée, empêchant ainsi le fonction d'activation (généralement Softmax) de saturer. Le résultat est un modèle qui apprend des regroupements plus serrés de classes dans l'espace des caractéristiques et produit de meilleurs calibrage du modèle, ce qui signifie que les probabilités prédites reflètent plus fidèlement la vraisemblance réelle de justesse.

Applications concrètes

Cette technique est particulièrement cruciale dans les domaines où l'ambiguïté des données est inhérente ou lorsque les ensembles de données sont sujets à des erreurs d'étiquetage .

  • Diagnostic médical : dans le domaine de l' IA appliquée aux soins de santé, les données cliniques sont rarement tout noir ou tout blanc. Par exemple, dans l' analyse d'images médicales, un scan peut montrer des caractéristiques qui suggèrent fortement une maladie, mais sans être définitives. L'entraînement avec des étiquettes rigides oblige le modèle à ignorer cette incertitude. En appliquant le lissage des étiquettes, le modèle conserve un certain scepticisme, ce qui est essentiel pour les systèmes d'aide à la décision où une confiance excessive pourrait conduire à des erreurs de diagnostic.
  • Classification d'images à grande échelle : les ensembles de données publics massifs tels que ImageNet contiennent souvent des images mal étiquetées ou des images contenant plusieurs objets valides. Si un modèle tente d'ajuster ces exemples bruités avec une confiance de 100 % , il apprend des associations incorrectes. Le lissage des étiquettes agit comme un tampon contre le bruit des étiquettes, garantissant que quelques points de données erronés ne faussent pas considérablement les pondérations finales du modèle.

Mise en œuvre du lissage des étiquettes avec Ultralytics

Les cadres modernes d'apprentissage profond simplifient l'application de cette technique. À l'aide du ultralytics package, vous pouvez facilement intégrer le lissage des étiquettes dans votre pipeline d'entraînement pour classification des images ou des tâches de détection. Cela est souvent fait pour tirer le maximum de performances de modèles de pointe tels que YOLO26.

L'exemple suivant montre comment entraîner un modèle de classification avec le lissage des étiquettes activé :

from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")

# Train with label_smoothing set to 0.1
# The target for the correct class becomes 1.0 - 0.5 * 0.1 = 0.95 (depending on implementation specifics)
model.train(data="mnist", epochs=5, label_smoothing=0.1)

Comparaison avec des concepts connexes

Il est utile de distinguer le lissage des étiquettes des autres stratégies de régularisation afin de comprendre quand l'utiliser.

  • vs. Dropout : une couche de dropout désactive aléatoirement des neurones pendant l' entraînement afin de forcer le réseau à apprendre des représentations redondantes. Si les deux techniques empêchent le surajustement, le dropout modifie l'architecture du réseau de manière dynamique, tandis que le lissage des étiquettes modifie la cible d'optimisation (les étiquettes elles-mêmes).
  • vs. Distillation des connaissances : les deux techniques impliquent un apprentissage sur des cibles souples. Cependant, dans la distillation des connaissances, les cibles souples proviennent d'un modèle « enseignant » et contiennent des informations apprises (par exemple, « cela ressemble à 10 % à un chat »). En revanche, le lissage des étiquettes utilise des cibles souples « non informatives » dérivées mathématiquement (par exemple, « donner une probabilité de 10 % à toutes les autres classes de manière égale »).
  • vs. Augmentation des données : les stratégies d' augmentation des données modifient les données d'entrée (rotation, recadrage, colorisation) afin d'accroître la variété. Le lissage des étiquettes modifie les attentes en matière de sortie. Les workflows de formation complets sur la Ultralytics combinent souvent l' augmentation, le dropout et le lissage des étiquettes afin d'obtenir une précision maximale.

En atténuant le problème de gradient disparaissant dans les couches finales et en encourageant le modèle à apprendre des caractéristiques plus robustes, le lissage des étiquettes reste un élément essentiel des architectures modernes d' apprentissage profond.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant