Glossaire

Réseaux résiduels (ResNet)

Découvrez comment les ResNets révolutionnent l'apprentissage profond en résolvant les gradients de fuite, permettant ainsi des réseaux ultra-profonds pour l'analyse d'images, le NLP et bien plus encore.

Les réseaux résiduels, communément appelés ResNet, sont un type révolutionnaire d'architecture de réseau neuronal (NN) qui a eu un impact profond sur le domaine de l'apprentissage profond. Introduit par Kaiming He et al. dans leur article de 2015 intitulé"Deep Residual Learning for Image Recognition", ResNet a permis de former efficacement des réseaux neuronaux extrêmement profonds, avec des centaines, voire des milliers de couches. Ce résultat a été obtenu en introduisant des "blocs résiduels" avec des "connexions sautées", un concept simple mais puissant qui atténue le problème du gradient de fuite, qui affecte généralement les réseaux très profonds.

Fonctionnement de ResNet

L'innovation principale de ResNet est l'utilisation de connexions sautées ou de raccourcis. Dans un réseau neuronal convolutif (CNN) traditionnel, chaque couche transmet sa sortie directement à la couche suivante dans l'ordre. Au fur et à mesure que le réseau devient plus profond, il devient de plus en plus difficile pour le réseau d'apprendre et pour les gradients de se propager en arrière pendant la formation. Cela peut conduire à une situation où l'ajout de couches supplémentaires dégrade en fait les performances du modèle.

ResNet résout ce problème en permettant d'ajouter l'entrée d'une couche (ou d'un bloc de couches) à sa sortie. Ce saut de connexion crée un autre chemin pour le gradient, ce qui permet d'entraîner efficacement des réseaux très profonds. Cette structure permet au réseau d'apprendre des fonctions résiduelles - en d'autres termes, les couches n'ont besoin d'apprendre que les changements ou les résidus de l'entrée, plutôt que l'ensemble de la transformation. Si une couche n'est pas utile, le réseau peut facilement apprendre à l'ignorer en faisant tendre ses poids vers zéro, ce qui permet de faire passer la cartographie d'identité par la connexion sautée.

ResNet par rapport à d'autres architectures

  • CNN standard: Contrairement aux CNN séquentiels standard, les ResNets peuvent devenir beaucoup plus profonds sans perte de performance, grâce à l'apprentissage résiduel. Cette profondeur leur permet d'apprendre des caractéristiques plus complexes et d'atteindre une plus grande précision dans des tâches difficiles.
  • U-Net: U-Net utilise également des connexions par saut, mais son objectif est différent. Dans U-Net, les connexions sautées relient les couches du chemin d'échantillonnage descendant au chemin d'échantillonnage ascendant afin de récupérer des informations spatiales pour une segmentation précise de l'image. Dans ResNet, les connexions sont généralement plus courtes et conçues pour améliorer le flux de gradient et permettre des architectures plus profondes.

Applications dans le monde réel

Les puissantes capacités d'extraction de caractéristiques de ResNet en font un choix populaire en tant qu'épine dorsale pour de nombreuses tâches complexes de vision par ordinateur.

  • Analyse d'images médicales: Dans le domaine de l'IA pour les soins de santé, les architectures ResNet sont utilisées pour analyser les scanners médicaux tels que les radiographies, les tomographies et les IRM. Par exemple, un modèle basé sur ResNet peut être entraîné sur un ensemble de données de scanners cérébraux pour aider les radiologues à détecter les tumeurs à un stade précoce, améliorant ainsi la précision et la rapidité du diagnostic.
  • Conduite autonome: Les systèmes des voitures à conduite autonome s'appuient sur des dorsales robustes pour la perception en temps réel. ResNet est souvent utilisé pour traiter les entrées des caméras pour la détection d'objets, l'identification des piétons, des véhicules et des panneaux de signalisation, ce qui est crucial pour les systèmes de navigation sûrs développés par des entreprises comme Waymo.

Outils et mise en œuvre

Les architectures ResNet sont largement mises en œuvre dans les principaux cadres d'apprentissage profond tels que PyTorch et TensorFlow. Des modèles pré-entraînés, souvent formés sur l'ensemble de données à grande échelle ImageNet, sont facilement disponibles grâce à des bibliothèques comme torchvision, ce qui facilite l'apprentissage par transfert efficace pour les applications personnalisées. Des plateformes comme Ultralytics HUB permettent aux utilisateurs d'exploiter diverses architectures, y compris des modèles basés sur ResNet, pour former des modèles personnalisés répondant à leurs besoins spécifiques. Alors que ResNet a établi une base de performance solide, des architectures plus récentes comme EfficientNet ont depuis été développées pour offrir une meilleure efficacité. Vous trouverez d'autres ressources pédagogiques sur les CNN dans le cours CS231n de Stanford ou dans des cours proposés par des fournisseurs tels que DeepLearning.AI.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers