Qu'est-ce que ResNet-50 et quel est son intérêt pour la vision par ordinateur ?

Abirami Vina

5 minutes de lecture

27 mai 2025

Découvrez comment l'architecture de ResNet-50 permet la classification d'images dans des applications réelles dans les domaines de la santé, de la fabrication et des systèmes autonomes.

L'analyse automatisée d'images devient de plus en plus courante dans des applications telles que la détection des voitures en excès de vitesse ou l'analyse d'images médicales. La technologie à l'origine de ces innovations est la vision par ordinateur ou Vision AI. Il s'agit d'une branche de l'intelligence artificielle (IA) qui permet aux machines d'interpréter et de comprendre les images et les vidéos, comme le font les humains. 

Pour élaborer de telles solutions de vision par ordinateur, les développeurs s'appuient sur des modèles d'intelligence artificielle capables d'apprendre à partir de grandes quantités de données visuelles. Au fil des ans, les chercheurs ont mis au point des modèles plus récents et plus avancés, dont les performances sont impressionnantes pour les tâches de vision artificielle telles que la classification d'images (attribution d'étiquettes aux images), la détection d'objets (localisation et identification d'objets dans les images) et la segmentation d'instances (détection d'objets et délimitation de leurs formes exactes).

Cependant, un retour en arrière et la compréhension des modèles antérieurs peuvent aider à comprendre le fonctionnement des systèmes actuels de vision par ordinateur. Un exemple clé est ResNet-50, un modèle influent qui a introduit l'idée de connexions de raccourci - des voies simples qui aident le modèle à apprendre plus rapidement et avec plus de précision.

Cette innovation a permis d'entraîner efficacement des réseaux neuronaux beaucoup plus profonds, ce qui a conduit à des améliorations significatives dans la classification des images et a façonné la conception de nombreux modèles qui ont suivi. Dans cet article, nous allons explorer ResNet-50, son fonctionnement et son importance dans l'évolution de la vision par ordinateur. Commençons par le commencement !

Qu'est-ce que ResNet-50 ? 

ResNet-50 est un modèle de vision par ordinateur basé sur un type de réseau neuronal appelé réseau neuronal convolutif (CNN). Les CNN sont conçus pour aider les ordinateurs à comprendre les informations visuelles en apprenant des modèles dans les images, tels que les bords, les couleurs ou les formes, et en utilisant ces modèles pour reconnaître et classer les objets. 

Introduit en 2015 par des chercheurs de Microsoft Research, ResNet-50 est rapidement devenu l'un des modèles les plus impactants dans le domaine en raison de sa précision et de son efficacité dans les tâches de reconnaissance d'images à grande échelle.

L'une des principales caractéristiques de ResNet-50 est son utilisation des connexions résiduelles, également connues sous le nom de connexions raccourcies. Il s'agit de voies simples qui permettent au modèle de sauter certaines étapes du processus d'apprentissage. En d'autres termes, au lieu d'obliger le modèle à faire passer l'information par chaque couche, ces raccourcis lui permettent de transmettre les détails importants plus directement. L'apprentissage est ainsi plus rapide et plus fiable.

__wf_reserved_inherit
Fig. 1. Aperçu des connexions résiduelles dans l'architecture ResNet.

Cette conception permet de résoudre un problème courant dans le domaine de l'apprentissage profond, appelé "problème du gradient de fuite". Dans les modèles très profonds, des informations importantes peuvent se perdre au fur et à mesure qu'elles traversent de nombreuses couches, ce qui complique l'apprentissage du modèle. 

Les connexions résiduelles permettent d'éviter cela en assurant une circulation claire de l'information du début à la fin. C'est pourquoi le modèle est appelé ResNet-50 : ResNet signifie Residual Network (réseau résiduel), et le chiffre "50" fait référence au nombre de couches utilisées pour traiter une image. 

Aperçu du fonctionnement de ResNet-50

ResNet-50 a une structure bien organisée qui permet au modèle d'aller en profondeur sans perdre d'informations importantes. Il suit un modèle simple et reproductible qui lui permet d'être efficace tout en offrant de bonnes performances. 

Voici un aperçu du fonctionnement de l'architecture ResNet-50 :

  • Base extraction de caractéristiques: Le modèle commence par appliquer une opération mathématique appelée convolution. Cette opération consiste à faire glisser de petits filtres (appelés noyaux) sur l'image pour produire des cartes de caractéristiques - de nouvelles versions de l'image qui mettent en évidence des motifs de base tels que les bords ou les textures. C'est ainsi que le modèle commence à repérer des informations visuelles utiles.
  • Apprentissage de caractéristiques complexes : Au fur et à mesure que les données se déplacent dans le réseau, la taille des cartes de caractéristiques diminue. Cela est possible grâce à des techniques telles que la mise en commun ou l'utilisation de filtres avec des pas plus grands (appelés strides). Dans le même temps, le réseau crée davantage de cartes de caractéristiques, ce qui lui permet de capturer des motifs de plus en plus complexes, tels que des formes, des parties d'objets ou des textures.
  • Compression et expansion des données : Chaque étape comprime les données, les traite, puis les développe à nouveau. Cela permet au modèle d'apprendre tout en économisant de la mémoire.
  • Raccourcis : Il s'agit de chemins simples qui permettent à l'information d'aller plus loin au lieu de passer par toutes les couches. Elles rendent l'apprentissage plus stable et plus efficace.
  • Faire une prédiction: À la fin du réseau, toutes les informations apprises sont combinées et passent par une fonction softmax. Celle-ci produit une distribution de probabilités sur les classes possibles, indiquant la confiance du modèle dans chaque prédiction - par exemple, 90 % de chats, 9 % de chiens, 1 % de voitures.
__wf_reserved_inherit
Fig. 2. L'architecture ResNet-50.

Principales caractéristiques de ResNet-50

Bien que ResNet-50 ait été conçu à l'origine pour la classification d'images, sa conception flexible l'a rendu utile dans de nombreux domaines de la vision par ordinateur. Examinons quelques-unes des caractéristiques qui distinguent ResNet-50.

Utilisation de ResNet-50 pour la classification d'images

ResNet-50 est principalement utilisé pour la classification d'images, l'objectif étant d'attribuer une étiquette à une image. Par exemple, pour une photo, le modèle peut l'étiqueter comme un chien, un chat ou un avion en fonction de l'objet principal qu'il voit. 

Sa conception fiable et sa disponibilité dans des bibliothèques d'apprentissage profond largement utilisées comme PyTorch et TensorFlow ont fait de ResNet-50 un premier choix populaire pour l'entraînement sur de grands ensembles de données d'images. L'un des exemples les plus connus est ImageNet, une collection massive d'images étiquetées utilisée pour évaluer et comparer les modèles de vision par ordinateur.

Bien que des modèles plus récents, tels que Ultralytics YOLO11, soient plus performants, ResNet-50 est encore couramment utilisé comme référence grâce à son solide équilibre entre précision, rapidité et simplicité.

__wf_reserved_inherit
Fig. 3. Exemple d'utilisation de ResNet-50 pour classer un chien.

Détection d'objets grâce aux réseaux fédérateurs ResNet-50

Alors que la classification des images consiste à identifier l'objet principal d'une image, la détection d'objets va plus loin en trouvant et en étiquetant plusieurs objets dans la même image. Par exemple, dans une image d'une rue très fréquentée, un modèle peut avoir besoin de détecter des voitures, des bus et des personnes - et de déterminer où se trouve chacun d'entre eux.

ResNet-50 est utilisé comme colonne vertébrale dans certains de ces modèles. Cela signifie qu'il prend en charge la première partie du travail : l'analyse de l'image et l'extraction des détails importants qui décrivent ce qu'elle contient et où elle se trouve. Ces détails sont ensuite transmis à la partie suivante du modèle, appelée tête de détection, qui prend les décisions finales concernant les objets présents dans l'image et leur emplacement.

Des modèles de détection populaires tels que Faster R-CNN et DETR utilisent ResNet-50 pour cette étape d'extraction des caractéristiques. Parce qu'il parvient à capturer à la fois les détails fins et la disposition générale d'une image, il aide ces modèles à faire des prédictions précises, même dans des scènes complexes.

Apprentissage par transfert avec ResNet-50

Un autre aspect intéressant du modèle ResNet-50 est sa capacité à prendre en charge l'apprentissage par transfert. Cela signifie que le modèle, formé à l'origine sur un grand ensemble de données comme ImageNet pour la classification d'images, peut être adapté à de nouvelles tâches avec beaucoup moins de données.

Plutôt que de repartir de zéro, la plupart des couches du modèle sont réutilisées, et seule la couche de classification finale est remplacée et réentraînée pour la nouvelle tâche. Cela permet de gagner du temps et s'avère particulièrement utile lorsque les données étiquetées sont limitées.

Applications de ResNet-50 dans le domaine de la vision par ordinateur

L'architecture de ResNet-50 l'a rendu utile pour un large éventail d'applications de vision par ordinateur. Elle a joué un rôle particulièrement important dans les premiers temps de l'apprentissage en profondeur, en contribuant à faire passer la technologie de l'IA de la recherche à l'utilisation dans le monde réel. En résolvant des problèmes clés, il a contribué à ouvrir la voie aux modèles plus avancés que nous voyons dans les applications d'aujourd'hui.

L'imagerie médicale pilotée par ResNet-50

ResNet-50 a été l'un des premiers modèles utilisés dans l'imagerie médicale basée sur l'apprentissage profond. Les chercheurs l'ont exploité pour identifier des schémas pathologiques dans les radiographies, les IRM et d'autres scanners de diagnostic. Par exemple, il a permis de détecter des tumeurs et de classer des images de rétine diabétique pour faciliter le diagnostic en ophtalmologie.

Alors que des modèles plus avancés sont aujourd'hui utilisés dans les outils cliniques, ResNet-50 a joué un rôle clé dans les premières recherches sur l'IA médicale. Sa facilité d'utilisation et sa conception modulaire en ont fait un choix approprié pour la création de prototypes de systèmes de diagnostic.

__wf_reserved_inherit
Fig. 4. Détection de tumeurs cérébrales basée sur ResNet-50.

Automatisation industrielle alimentée par ResNet-50

De même, ResNet-50 a également été appliqué dans des environnements industriels. Par exemple, dans le secteur manufacturier, il a été utilisé dans des systèmes de recherche et des systèmes pilotes pour détecter les défauts de surface sur des matériaux tels que l'acier, le béton et les pièces peintes.

Il a également été testé dans des installations visant à identifier les trous de bogues, les fissures ou les dépôts qui se forment lors du moulage ou de l'assemblage. ResNet-50 est bien adapté à ces tâches car il peut repérer des différences subtiles dans la texture de la surface, une capacité importante pour l'inspection de la qualité.

Alors que des modèles plus avancés comme YOLO11 sont désormais couramment utilisés dans les systèmes de production, ResNet-50 joue toujours un rôle important dans la recherche universitaire et l'évaluation comparative, en particulier pour les tâches de classification d'images.

__wf_reserved_inherit
Fig. 6. Inspection de surface à l'aide de Resnet-50.

Avantages et limites de ResNet-50

Voici quelques-uns des avantages de ResNet-50 :

  • Des performances de base solides : ResNet-50 offre une grande précision dans un large éventail de tâches, ce qui en fait une référence fiable pour les projets de recherche et les projets appliqués.
  • Bien documenté et largement étudié: Son architecture est bien comprise et bien documentée, ce qui facilite le dépannage et l'apprentissage pour les développeurs et les chercheurs.
  • Polyvalent dans tous les domaines: De l'imagerie médicale à la fabrication, ResNet-50 a été appliqué avec succès à toute une série de problèmes réels, ce qui prouve sa flexibilité.

En attendant, voici un aperçu des limites de ResNet-50 :

  • Utilisation élevée des ressources : ResNet-50 nécessite plus de mémoire et de puissance de calcul que les modèles légers, ce qui peut le rendre moins adapté aux appareils mobiles ou aux applications en temps réel.

  • Surajustement sur les petits ensembles de données: En raison de sa profondeur et de sa complexité, ResNet-50 peut se surajuster lorsqu'il est entraîné sur des données limitées sans techniques de régularisation appropriées.
  • Taille d'entrée fixe: ResNet-50 s'attend généralement à ce que les images aient une taille spécifique, comme 224×224 pixels. Les images doivent donc souvent être redimensionnées ou recadrées, ce qui peut parfois supprimer des détails importants.

Principaux enseignements

ResNet-50 a prouvé qu'il était possible d'entraîner efficacement des réseaux très profonds tout en obtenant d'excellentes performances dans les tâches visuelles. Son architecture offre un cadre clair et pratique pour construire des modèles plus profonds qui fonctionnent de manière fiable. 

Après sa sortie, les chercheurs ont développé la conception, créant des versions plus profondes comme ResNet-101 et ResNet-152. Dans l'ensemble, ResNet-50 est un modèle clé qui a contribué à façonner la manière dont l'apprentissage profond est utilisé aujourd'hui dans le domaine de la vision par ordinateur.

Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à lancer vos propres projets de vision par ordinateur ? Consultez nos options de licence. Découvrez l'IA dans l'agriculture et l'IA de vision dans les soins de santé en visitant nos pages de solutions ! 

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers