Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Couche Dropout

Découvrez comment les couches dropout empêchent le surapprentissage dans les réseaux neuronaux en améliorant la généralisation, la robustesse et les performances du modèle.

Une couche d'exclusion est une technique de régularisation technique de régularisation fondamentale utilisée dans les réseaux neuronaux (RN) pour éviter le problème courant de l'ajustement excessif. de l'overfitting. Lorsqu'un modèle est entraîné sur un ensemble de données, il risque d'apprendre le bruit et les détails spécifiques de l'ensemble de données, données, il risque d'apprendre le bruit et les détails spécifiques des données d'entraînement plutôt que les données générales sous-jacentes. données d'apprentissage plutôt que les modèles généraux sous-jacents. sous-jacents. Cette mémorisation conduit à des performances médiocres sur de nouvelles données inédites. Dropout remédie à ce problème en désactivant aléatoirement une fraction des neurones d'une couche à chaque étape du processus de formation. processus d'apprentissage. Cette stratégie simple mais efficace a été introduite dans un par Geoffrey Hinton et ses collègues, ce qui a considérablement fait collègues, faisant ainsi progresser de manière significative le domaine de l'apprentissage profond (DL). l'apprentissage profond (DL).

Fonctionnement des couches d'exclusion

Le mécanisme qui sous-tend la couche de décrochage est simple mais puissant. Pendant la phase phase d'apprentissage du modèle, la couche génère un masque de zéros et de uns en fonction d'une probabilité spécifiée, appelée taux d'abandon. Si le taux est fixé à 0,5, environ 50 % des neurones sont temporairement ignorés lors de ce passage avant et arrière. Cela oblige les neurones actifs restants à s'intensifier et à apprendre des caractéristiques robustes de manière indépendante, ce qui empêche le réseau de trop se reposer sur un seul neurone, un phénomène que l'on retrouve également dans d'autres réseaux. sur un seul neurone - un phénomène connu sous le nom de coadaptation.

Pendant l'inférence, ou la phase de test, la couche d'exclusion est généralement désactivée. est généralement désactivée. Tous les neurones sont actifs afin d'utiliser toute la capacité du modèle formé. Pour s'assurer que les valeurs d'activation totales restent cohérentes avec la phase de formation, les poids sont souvent mis à l'échelle automatiquement par le cadre. automatiquement par le cadre de travail. Les bibliothèques modernes telles que PyTorch gèrent ces opérations de manière transparente dans leur dropout.

Pour les utilisateurs de l'application ultralytics l'application de l'abandon à un modèle tel que YOLO11 est aussi simple que d'ajuster un argument de formation.

from ultralytics import YOLO

# Load a standard YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a dataset with a custom dropout rate of 0.2
# This helps prevent overfitting on smaller datasets
results = model.train(data="coco8.yaml", epochs=10, dropout=0.2)

Applications concrètes

Dropout est indispensable dans divers domaines de l'intelligence l'intelligence artificielle (IA) où les les modèles sont susceptibles d'être surajoutés en raison d'un grand nombre de paramètres ou de données limitées.

  1. Vision par ordinateur: Dans des tâches telles que classification d'images et la détection d'objets, l'abandon aide les modèles à modèles à mieux s'adapter aux divers environnements du monde réel. Par exemple, dans les solutions d'IA pour l'automobile, un modèle de vision pour reconnaître les piétons doit fonctionner de manière fiable dans des conditions météorologiques et d'éclairage différentes. L'exclusion garantit que le modèle se concentre sur les formes et les caractéristiques essentielles plutôt que de mémoriser des textures d'arrière-plan spécifiques provenant de l'ensemble de données de référence. l 'ensemble de données de référence.
  2. Traitement du langage naturel (NLP): Le dropout est un composant standard dans les architectures de transformateurs utilisées pour le traitement du langage naturel. architectures de transformateurs utilisées pour les les grands modèles de langage (LLM). Lorsque modèles de traduction automatique ou d'analyse l'analyse des sentiments, le dropout empêche le empêche le réseau de trop s'appuyer sur des séquences de mots spécifiques, l'encourageant ainsi à capturer des significations sémantiques et des structures grammaticales plus profondes. structures grammaticales.

Distinctions par rapport aux concepts connexes

Comprendre en quoi le dropout diffère des autres techniques est crucial pour un réglage efficace des hyperparamètres. efficace des hyperparamètres.

  • Exclusion ou augmentation des données: Bien que les deux méthodes améliorent la généralisation, l'augmentation des données consiste à étendre artificiellement artificiellement l'ensemble de formation par des transformations telles que la rotation et la mise à l'échelle. En revanche, l'exclusion modifie l'architecture l'architecture du réseau elle-même de manière dynamique. Ces deux méthodes sont souvent combinées ; par exemple, l'augmentation des donnéesYOLO est utilisée parallèlement à l'abandon pour maximiser la robustesse du modèle. pour maximiser la robustesse du modèle.
  • Normalisation par élimination ou par lot: La normalisation par lots normalise les entrées de chaque couche afin de stabiliser le processus d'apprentissage et de permettre des taux d'apprentissage plus élevés. chaque couche pour stabiliser le processus d'apprentissage et permettre des taux d'apprentissage plus élevés. Bien qu'elle ait un léger effet de régularisation, son objectif principal est la rapidité et la stabilité de l'optimisation. régularisation, son objectif principal est la vitesse et la stabilité de l'optimisation, alors que l'abandon est explicitement conçu pour réduire la complexité du modèle. modèle.
  • Abandon ou décroissance du poids (régularisation L2): La décroissance du poids ajoute un terme de pénalité à la fonction de perte proportionnellement à la taille des des poids, en les réduisant vers zéro. L'abandon, cependant, crée un effet d'ensemble effet d'ensemble en entraînant effectivement différents différents sous-réseaux à chaque époque, offrant ainsi un angle de régularisation différent. régularisation. Pour plus d'informations sur ces différences, voir les notes de cours CS231n de Stanford.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant