Découvrez comment les ResNets révolutionnent l'apprentissage profond en résolvant les gradients de fuite, permettant ainsi des réseaux ultra-profonds pour l'analyse d'images, le NLP et bien plus encore.
Les réseaux résiduels, communément appelés ResNet, sont un type révolutionnaire d'architecture de réseau neuronal (NN) qui a eu un impact profond sur le domaine de l'apprentissage profond. Introduit par Kaiming He et al. dans leur article de 2015 intitulé"Deep Residual Learning for Image Recognition", ResNet a permis de former efficacement des réseaux neuronaux extrêmement profonds, avec des centaines, voire des milliers de couches. Ce résultat a été obtenu en introduisant des "blocs résiduels" avec des "connexions sautées", un concept simple mais puissant qui atténue le problème du gradient de fuite, qui affecte généralement les réseaux très profonds.
L'innovation principale de ResNet est l'utilisation de connexions sautées ou de raccourcis. Dans un réseau neuronal convolutif (CNN) traditionnel, chaque couche transmet sa sortie directement à la couche suivante dans l'ordre. Au fur et à mesure que le réseau devient plus profond, il devient de plus en plus difficile pour le réseau d'apprendre et pour les gradients de se propager en arrière pendant la formation. Cela peut conduire à une situation où l'ajout de couches supplémentaires dégrade en fait les performances du modèle.
ResNet résout ce problème en permettant d'ajouter l'entrée d'une couche (ou d'un bloc de couches) à sa sortie. Ce saut de connexion crée un autre chemin pour le gradient, ce qui permet d'entraîner efficacement des réseaux très profonds. Cette structure permet au réseau d'apprendre des fonctions résiduelles - en d'autres termes, les couches n'ont besoin d'apprendre que les changements ou les résidus de l'entrée, plutôt que l'ensemble de la transformation. Si une couche n'est pas utile, le réseau peut facilement apprendre à l'ignorer en faisant tendre ses poids vers zéro, ce qui permet de faire passer la cartographie d'identité par la connexion sautée.
Les puissantes capacités d'extraction de caractéristiques de ResNet en font un choix populaire en tant qu'épine dorsale pour de nombreuses tâches complexes de vision par ordinateur.
Les architectures ResNet sont largement mises en œuvre dans les principaux cadres d'apprentissage profond tels que PyTorch et TensorFlow. Des modèles pré-entraînés, souvent formés sur l'ensemble de données à grande échelle ImageNet, sont facilement disponibles grâce à des bibliothèques comme torchvision, ce qui facilite l'apprentissage par transfert efficace pour les applications personnalisées. Des plateformes comme Ultralytics HUB permettent aux utilisateurs d'exploiter diverses architectures, y compris des modèles basés sur ResNet, pour former des modèles personnalisés répondant à leurs besoins spécifiques. Alors que ResNet a établi une base de performance solide, des architectures plus récentes comme EfficientNet ont depuis été développées pour offrir une meilleure efficacité. Vous trouverez d'autres ressources pédagogiques sur les CNN dans le cours CS231n de Stanford ou dans des cours proposés par des fournisseurs tels que DeepLearning.AI.