Améliorez la précision et la robustesse des modèles d'IA grâce au lissage d'étiquettes, une technique éprouvée pour améliorer la généralisation et réduire l'excès de confiance.
Le lissage des étiquettes est une technique de régularisation utilisée pendant la formation des modèles d'apprentissage automatique pour éviter que le réseau neuronal ne devienne trop confiant dans ses prédictions. réseau neuronal de devenir trop confiant dans ses prédictions. En modifiant légèrement les étiquettes cibles, cette méthode Cette méthode encourage le modèle à produire des distributions de probabilités moins extrêmes, ce qui conduit finalement à une meilleure généralisation et à des performances accrues sur des objets non vus. une meilleure généralisation et une amélioration des performances sur des données inédites. Elle atténue efficacement le problème courant de l'overfitting, où un modèle mémorise les données d'apprentissage au lieu d'apprendre les données sous-jacentes. données d'apprentissage au lieu d'apprendre les sous-jacents nécessaires pour obtenir des prédictions précises dans des scénarios réels.
Dans les tâches d'apprentissage supervisé standard, telles que la classification d'images, les modèles sont généralement formés à l'aide de cibles "dures". classification d'images, les modèles sont généralement formés à l'aide de cibles "dures". Ces cibles sont des vecteurs codés à un où la classe correcte a une probabilité de 1,0 (100 %) et toutes les classes incorrectes ont une probabilité de 0,0. Bien que cela semble intuitif, cela oblige la fonction de perte fonction de perte - souventla perte d'entropie croisée - à conduire les sorties de la couche logit à l'infini . sorties de la couche logit à l'infini pour atteindre exactement à l'infini pour atteindre exactement 1,0. Ce comportement se traduit par un modèle excessivement confiant, même lorsqu'il se trompe, et réduit sa capacité à s'adapter à de nouvelles entrées. réduit sa capacité à s'adapter à de nouvelles entrées.
Le lissage des étiquettes remplace ces cibles dures par des cibles "douces". Au lieu d'attribuer 1,0 à la vérité de base, la technique attribue une valeur légèrement inférieure, par exemple 0,9. la vérité terrain, la technique attribue une valeur légèrement inférieure, par exemple 0,9. La masse de probabilité restante (par exemple, 0,1) est répartie uniformément entre les classes incorrectes. est répartie uniformément entre les classes incorrectes. Ce changement subtil empêche la fonction d'activation fonction d'activation, typiquement Softmax, de saturer. Pour une compréhension théorique plus Pour une compréhension théorique plus approfondie, le document de recherche"Rethinking the Inception Architecture for Computer Vision" fournit des informations fondamentales sur la manière dont ce mécanisme stabilise l'apprentissage.
Les cadres modernes de vision par ordinateur facilitent l'application de cette technique. Lorsque vous utilisez le modèle Ultralytics YOLO11 , vous pouvez activer le lissage des étiquettes directement dans les arguments d'apprentissage. Ceci est particulièrement utile pour les tâches de classification où les ensembles de données peuvent contenir des ambiguïtés. particulièrement utile pour les tâches de classification où les ensembles de données peuvent contenir des ambiguïtés.
L'exemple suivant montre comment former un modèle en appliquant le lissage des étiquettes :
from ultralytics import YOLO
# Load the YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on a dataset with label smoothing set to 0.1
# This distributes 10% of the probability mass to incorrect classes
model.train(data="mnist", epochs=5, label_smoothing=0.1)
L'un des principaux avantages du lissage des étiquettes est l'amélioration de l'étalonnage du modèle. l'amélioration de l'étalonnage du modèle. Un modèle bien calibré produit des probabilités prédites qui reflètent essentiellement la véritable probabilité d'exactitude. Par exemple, si un modèle prédit une classe avec un niveau de confiance de 70 %, il devrait être correct dans 70 % des cas. Les étiquettes difficiles conduisent souvent à des modèles non calibrés qui prédisent avec une confiance de 99 %, quelle que soit l'incertitude réelle. l'incertitude réelle.
En outre, le lissage des étiquettes accroît la robustesse face aux données bruyantes. données bruyantes. Dans les ensembles de données volumineux tels que ImageNetcertaines étiquettes peuvent être incorrectes ou ambiguës. En ne forçant pas le modèle à converger vers En ne forçant pas le modèle à converger vers exactement 1,0, le réseau devient plus indulgent envers les exemples mal étiquetés occasionnels, ce qui empêche le réseau neuronal de se tromper de cible. mal étiquetés, ce qui empêche le réseau neuronal d'apprendre en profondeur des modèles erronés.
Cette stratégie de régularisation est largement adoptée dans divers domaines de l'intelligence artificielle afin d'améliorer la qualité de l'information. l 'intelligence artificielle afin d'améliorer la la fiabilité.
Il est utile de distinguer le lissage des étiquettes des autres techniques utilisées pour améliorer les performances du modèle.
En intégrant le lissage des étiquettes dans votre pipeline de formation, vous vous assurez que vos modèles restent adaptables et calibrés, ce qui est essentiel pour réussir. calibrés, ce qui est essentiel pour un déploiement de modèles dans des environnements de production.