Glossaire

Couche de chute

Découvrez comment les couches d'exclusion empêchent l'ajustement excessif dans les réseaux neuronaux en améliorant la généralisation, la robustesse et les performances du modèle.

Une couche d'exclusion est une technique de régularisation puissante mais simple utilisée dans les réseaux neuronaux (RN) pour lutter contre le surajustement. Il y a surajustement lorsqu'un modèle apprend trop bien les données d'apprentissage, y compris le bruit et les idiosyncrasies, ce qui nuit à sa capacité de généralisation à de nouvelles données inédites. L'idée centrale de l'exclusion, introduite par Geoffrey Hinton et ses collègues dans un article révolutionnaire de 2014, consiste à "exclure" de manière aléatoire - ou à retirer temporairement - des neurones et leurs connexions au cours de chaque étape de l'apprentissage. Cela empêche les neurones de devenir trop dépendants les uns des autres, obligeant le réseau à apprendre des représentations plus robustes et redondantes.

Fonctionnement d'un calque d'exclusion

Au cours du processus d'apprentissage du modèle, une couche d'abandon met aléatoirement à zéro les activations d'une fraction des neurones de la couche précédente. Le "taux d'abandon" est un hyperparamètre qui définit la probabilité qu'un neurone soit abandonné. Par exemple, un taux d'abandon de 0,5 signifie que chaque neurone a 50 % de chances d'être ignoré au cours d'une itération de formation donnée. Ce processus peut être considéré comme la formation d'un grand nombre de réseaux amincis qui partagent des poids.

En modifiant constamment l'architecture du réseau, l'abandon empêche les coadaptations complexes, où la sortie d'un neurone dépend fortement de la présence de quelques autres neurones spécifiques. Au contraire, chaque neurone est encouragé à devenir un détecteur de caractéristiques plus indépendant et plus utile. Pendant la phase de test ou d'inférence, la couche d'exclusion est désactivée et tous les neurones sont utilisés. Pour compenser le fait qu'un plus grand nombre de neurones sont actifs que pendant la formation, les sorties de la couche sont réduites en fonction du taux d'abandon. Cela permet de s'assurer que la sortie attendue de chaque neurone reste cohérente entre la formation et le test. Des frameworks comme PyTorch et TensorFlow gèrent cette mise à l'échelle automatiquement dans leurs implémentations de la couche d'abandon.

Applications dans le monde réel

Dropout est largement utilisé dans divers domaines de l'intelligence artificielle (IA) et de l'apprentissage machine (ML):

  1. Vision par ordinateur : Dans le domaine de la vision par ordinateur, l'abandon permet aux modèles tels qu'Ultralytics YOLO d'être plus performants dans des tâches telles que la détection d'objets, la classification d'images et la segmentation d'instances. Par exemple, dans les systèmes de conduite autonome, l'abandon peut rendre les modèles de détection plus robustes aux variations d'éclairage, aux conditions météorologiques ou aux occlusions, améliorant ainsi la sécurité et la fiabilité. La formation de ces modèles peut être gérée efficacement à l'aide de plateformes comme Ultralytics HUB.
  2. Traitement du langage naturel (NLP) : Le dropout est couramment appliqué dans les modèles de NLP tels que Transformers et BERT. Dans des applications telles que la traduction automatique ou l'analyse des sentiments, le dropout empêche le modèle de mémoriser des phrases ou des structures de phrases spécifiques à partir des données d'apprentissage. Cela permet de mieux comprendre et de générer de nouveaux textes, ce qui améliore les performances des chatbots et des outils de résumé de texte.

Concepts et distinctions connexes

Le dropout est l'une des nombreuses techniques utilisées pour la régularisation dans l'apprentissage profond. Parmi les autres, on peut citer :

  • Régularisation L1 et L2 : Ces méthodes ajoutent une pénalité à la fonction de perte en fonction de l'ampleur des poids du modèle, favorisant des poids plus faibles pour réduire la complexité du modèle. Pour en savoir plus sur la régularisation L1/L2. En revanche, l'abandon modifie directement la structure du réseau pendant la formation au lieu de simplement pénaliser les poids.
  • Normalisation par lots : La normalisation par lots (BN) normalise les activations au sein d'une couche, ce qui peut stabiliser l'apprentissage et parfois fournir un léger effet de régularisation, réduisant potentiellement la nécessité d'un fort abandon. Alors que la normalisation par lots s'attaque au déplacement interne des covariables, l'exclusion cible directement la complexité du modèle en forçant la redondance.
  • Augmentation des données : Des techniques telles que la rotation, la mise à l'échelle ou le recadrage des images(augmentation des données) augmentent artificiellement la diversité de l'ensemble de données d'apprentissage. Cela permet également d'éviter l'ajustement excessif et d'améliorer la généralisation. L'exclusion et l'augmentation des données sont souvent utilisées conjointement pour obtenir des résultats encore plus robustes.

En résumé, la couche Dropout est une technique de régularisation simple mais puissante, essentielle à la formation de modèles d'apprentissage profond robustes dans diverses applications, de la vision par ordinateur avancée au NLP.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers