Découvre comment les ResNets révolutionnent l'apprentissage profond en résolvant les gradients évanescents, ce qui permet de créer des réseaux ultra profonds pour l'analyse d'images, le NLP et bien plus encore.
Les réseaux résiduels, communément appelés ResNet, représentent une architecture révolutionnaire de réseau neuronal convolutif (CNN) développée par Kaiming He et ses collègues de Microsoft Research. Présenté dans leur article de 2015,"Deep Residual Learning for Image Recognition", ResNet s'est attaqué à un défi majeur de l'apprentissage profond (DL): le problème de la dégradation. Ce problème survient lorsque l'ajout de couches supplémentaires à un réseau très profond entraîne une erreur d'apprentissage plus élevée, contrairement à l'attente selon laquelle les modèles plus profonds devraient être plus performants. L'innovation de ResNet a permis de former avec succès des réseaux nettement plus profonds que ce qui était possible auparavant, faisant ainsi progresser de manière significative l'état de l'art dans diverses tâches de vision par ordinateur (VA).
L'idée centrale de ResNet est l'introduction de "connexions de saut" ou de "connexions de raccourci". Dans les réseaux profonds traditionnels, chaque couche alimente séquentiellement la suivante. ResNet modifie cela en permettant à l'entrée d'un bloc de couches d'être ajoutée à la sortie de ce bloc. Cela crée un "bloc résiduel" où les couches apprennent une cartographie résiduelle (la différence entre l'entrée et la sortie souhaitée) plutôt que d'essayer d'apprendre directement toute la cartographie sous-jacente. Si la fonction optimale est plus proche d'une cartographie d'identité (où la sortie doit être identique à l'entrée), il est plus facile pour le réseau d'apprendre à faire en sorte que le résidu soit nul (en faisant tendre les poids des couches empilées vers zéro) que d'apprendre la cartographie d'identité elle-même par le biais de couches non linéaires.
Ces connexions sautées facilitent le flux de gradient pendant la rétropropagation, atténuant ainsi le problème de gradient disparaissant qui affecte souvent les réseaux très profonds. Cela permet de construire et de former efficacement des réseaux comportant des centaines, voire des milliers de couches, et d'obtenir des améliorations remarquables en termes de précision sur des ensembles de données de référence difficiles comme ImageNet.
Les architectures ResNet sont rapidement devenues un support standard pour de nombreuses tâches de vision par ordinateur au-delà de la classification d'images, notamment :
Sa capacité à extraire des caractéristiques puissantes des images en a fait une architecture très polyvalente et largement adoptée.
Les architectures ResNet sont facilement disponibles dans les principaux frameworks d'apprentissage profond tels que PyTorchPyTorch site officiel dePyTorch ) et TensorFlowTensorFlow ). Les modèles pré-entraînés, souvent formés sur ImageNet, sont accessibles grâce à des bibliothèques comme torchvision, ce qui permet un apprentissage par transfert efficace. Des plateformes comme Ultralytics HUB permettent aux utilisateurs d'exploiter diverses architectures, notamment celles basées sur ResNet, pour former des modèles personnalisés et les déployerUltralytics documentationUltralytics HUB). Tu trouveras d'autres ressources pédagogiques sur les CNN à Stanford CS231n ou par le biais de cours comme ceux proposés par DeepLearning.AI.