Découvrez comment les ResNet révolutionnent l'apprentissage profond en résolvant les problèmes de disparition du gradient, permettant ainsi des réseaux ultra-profonds pour l'analyse d'images, le NLP, et plus encore.
Les réseaux résiduels, communément appelés ResNet, sont un type révolutionnaire d'architecture de réseau neuronal (NN) qui a eu un impact profond sur le domaine de l'apprentissage profond. Introduit par Kaiming He et al. dans leur article de 2015, "Deep Residual Learning for Image Recognition", ResNet a permis d'entraîner efficacement des réseaux neuronaux extrêmement profonds, avec des centaines voire des milliers de couches. Ceci a été réalisé en introduisant des "blocs résiduels" avec des "connexions de saut", un concept simple mais puissant qui atténue le problème de disparition du gradient, qui affecte communément les réseaux très profonds.
L'innovation centrale de ResNet est l'utilisation de connexions de saut ou de raccourcis. Dans un réseau neuronal convolutionnel (CNN) traditionnel, chaque couche alimente sa sortie directement à la couche suivante dans la séquence. Au fur et à mesure que le réseau s'approfondit, il devient de plus en plus difficile pour le réseau d'apprendre et pour les gradients de se propager en retour pendant l'entraînement. Cela peut conduire à une situation où l'ajout de couches supplémentaires dégrade en fait les performances du modèle.
ResNet résout ce problème en permettant à l'entrée d'une couche (ou d'un bloc de couches) d'être ajoutée à sa sortie. Cette connexion de saut crée un chemin alternatif pour la circulation du gradient, garantissant que même les réseaux très profonds peuvent être entraînés efficacement. Cette structure permet au réseau d'apprendre des fonctions résiduelles—essentiellement, les couches n'ont besoin d'apprendre que les changements ou les résidus de l'entrée, plutôt que la transformation entière. Si une couche n'est pas bénéfique, le réseau peut facilement apprendre à l'ignorer en ramenant ses poids vers zéro, permettant ainsi à la fonction d'identité de passer à travers la connexion de saut.
Les puissantes capacités d'extraction de caractéristiques de ResNet en font un choix populaire comme backbone pour de nombreuses tâches complexes de vision par ordinateur.
Les architectures ResNet sont largement implémentées dans les principaux frameworks d'apprentissage profond comme PyTorch et TensorFlow. Les modèles pré-entraînés, souvent entraînés sur l'ensemble de données à grande échelle ImageNet, sont facilement disponibles via des bibliothèques comme torchvision, ce qui facilite l'apprentissage par transfert efficace pour les applications personnalisées. Les plateformes comme Ultralytics HUB permettent aux utilisateurs d'exploiter diverses architectures, y compris les modèles basés sur ResNet, pour entraîner des modèles personnalisés pour leurs besoins spécifiques. Bien que ResNet ait établi une base de référence de performance solide, des architectures plus récentes comme EfficientNet ont depuis été développées pour offrir une meilleure efficacité. Vous pouvez trouver plus de ressources éducatives sur les CNN sur le cours CS231n de Stanford ou via des cours de fournisseurs comme DeepLearning.AI.