En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment l'architecture de ResNet-50 permet la classification d'images dans des applications du monde réel dans les domaines de la santé, de la fabrication et des systèmes autonomes.
L’analyse d’images automatisée est de plus en plus courante dans des applications telles que la détection des excès de vitesse ou l’analyse d’images médicales. La technologie à l’origine de ces innovations est la vision par ordinateur ou Vision IA. Il s’agit d’une branche de l’intelligence artificielle (IA) qui permet aux machines d’interpréter et de comprendre les images et les vidéos, tout comme les humains.
Pour construire de telles solutions de vision par ordinateur, les développeurs s'appuient sur des modèles d'IA de vision qui peuvent apprendre à partir de grandes quantités de données visuelles. Au fil des ans, les chercheurs ont développé des modèles plus récents et plus avancés avec des performances impressionnantes dans les tâches d'IA de vision telles que la classification d'images (attribution d'étiquettes aux images), la détection d'objets (localisation et identification d'objets dans les images) et la segmentation d'instances (détection d'objets et délimitation de leurs formes exactes).
Cependant, revenir en arrière et comprendre les modèles antérieurs peut aider à comprendre le fonctionnement des systèmes de vision par ordinateur d'aujourd'hui. Par exemple, un exemple clé est ResNet-50, un modèle influent qui a introduit l'idée des connexions de raccourci - des voies simples qui aident le modèle à apprendre plus rapidement et plus précisément.
Cette innovation a permis d'entraîner efficacement des réseaux neuronaux beaucoup plus profonds, ce qui a conduit à des améliorations significatives dans la classification d'images et a façonné la conception de nombreux modèles qui ont suivi. Dans cet article, nous allons explorer ResNet-50, son fonctionnement et sa pertinence dans l'évolution de la vision par ordinateur. Commençons !
Qu'est-ce que ResNet-50 ?
ResNet-50 est un modèle de vision par ordinateur basé sur un type de réseau neuronal appelé réseau neuronal convolutif (CNN). Les CNN sont conçus pour aider les ordinateurs à comprendre les informations visuelles en apprenant les motifs dans les images, tels que les bords, les couleurs ou les formes, et en utilisant ces motifs pour reconnaître et classer les objets.
Introduit en 2015 par des chercheurs de Microsoft Research, ResNet-50 est rapidement devenu l'un des modèles les plus influents dans le domaine en raison de sa précision et de son efficacité dans les tâches de reconnaissance d'images à grande échelle.
Une caractéristique essentielle de ResNet-50 est son utilisation de connexions résiduelles, également appelées connexions de raccourci. Ce sont des voies simples qui permettent au modèle de sauter certaines étapes du processus d'apprentissage. En d'autres termes, au lieu de forcer le modèle à faire passer l'information par chaque couche, ces raccourcis lui permettent de transmettre plus directement les détails importants. Cela rend l'apprentissage plus rapide et plus fiable.
Fig 1. Un aperçu des connexions résiduelles dans l'architecture ResNet.
Cette conception permet de résoudre un problème courant dans l'apprentissage profond, appelé le problème de la disparition du gradient. Dans les modèles très profonds, des informations importantes peuvent se perdre lorsqu'elles traversent de nombreuses couches, ce qui rend l'apprentissage difficile pour le modèle.
Les connexions résiduelles aident à prévenir cela en maintenant un flux d'informations clair du début à la fin. C'est pourquoi le modèle est appelé ResNet-50 : ResNet signifie Residual Network (réseau résiduel), et le « 50 » fait référence au nombre de couches qu'il utilise pour traiter une image.
Un aperçu du fonctionnement de ResNet-50
ResNet-50 possède une structure bien organisée qui permet au modèle d'aller en profondeur sans perdre d'informations importantes. Il suit un modèle simple et répétable qui maintient l'efficacité tout en permettant de fortes performances.
Voici un aperçu plus détaillé du fonctionnement de l'architecture ResNet-50 :
Extraction de caractéristiques de base : Le modèle commence par appliquer une opération mathématique appelée convolution. Cela implique de faire glisser de petits filtres (appelés noyaux) sur l'image pour produire des cartes de caractéristiques - de nouvelles versions de l'image qui mettent en évidence des motifs de base comme les bords ou les textures. C'est ainsi que le modèle commence à identifier des informations visuelles utiles.
Apprentissage de caractéristiques complexes : À mesure que les données circulent dans le réseau, la taille des cartes de caractéristiques diminue. Cela se fait par le biais de techniques telles que le pooling ou l'utilisation de filtres avec des pas plus grands (appelés enjambements). Parallèlement, le réseau crée davantage de cartes de caractéristiques, ce qui l'aide à capturer des motifs de plus en plus complexes, tels que des formes, des parties d'objets ou des textures.
Compression et expansion des données : Chaque étape compresse les données, les traite, puis les étend à nouveau. Cela aide le modèle à apprendre tout en économisant de la mémoire.
Connexions de raccourci : Ce sont des chemins simples qui permettent à l'information de sauter en avant au lieu de passer par chaque couche. Ils rendent l'apprentissage plus stable et efficace.
Réalisation d'une prédiction: À la fin du réseau, toutes les informations apprises sont combinées et transmises via une fonction softmax. Cela génère une distribution de probabilité sur les classes possibles, indiquant la confiance du modèle dans chaque prédiction, par exemple, 90 % chat, 9 % chien, 1 % voiture.
Même si ResNet-50 a été initialement conçu pour la classification d'images, sa conception flexible l'a rendu utile dans de nombreux domaines de la vision par ordinateur. Examinons quelques-unes des caractéristiques qui distinguent ResNet-50.
Utilisation de ResNet-50 pour la classification d'images
ResNet-50 est principalement utilisé pour la classification d'images, où le but est d'attribuer une étiquette à une image. Par exemple, étant donné une photo, le modèle peut l'étiqueter comme un chien, un chat ou un avion en fonction de l'objet principal qu'il voit.
Sa conception fiable et sa disponibilité dans les bibliothèques de deep learning largement utilisées comme PyTorch et TensorFlow ont fait de ResNet-50 un choix populaire dès le début pour l'entraînement sur de grands ensembles de données d'images. L'un des exemples les plus connus est ImageNet, une collection massive d'images étiquetées utilisée pour évaluer et comparer les modèles de vision par ordinateur.
Bien que les modèles plus récents, tels que Ultralytics YOLO11, le surpassent, ResNet-50 est toujours couramment utilisé comme référence grâce à son solide équilibre entre précision, vitesse et simplicité.
Fig 3. Un exemple d'utilisation de ResNet-50 pour classifier un chien.
Détection d'objets activée par les backbones ResNet-50
Alors que la classification d'images consiste à identifier l'objet principal d'une image, la détection d'objets va plus loin en trouvant et en étiquetant plusieurs objets dans la même image. Par exemple, dans une image d'une rue animée, un modèle peut avoir besoin de détecter des voitures, des bus et des personnes - et de déterminer où se trouve chacun d'eux.
ResNet-50 est utilisé comme backbone dans certains de ces modèles. Cela signifie qu'il gère la première partie du travail : l'analyse de l'image et l'extraction des détails importants qui décrivent ce qu'elle contient et où. Ces détails sont ensuite transmis à la partie suivante du modèle, appelée la tête de détection, qui prend les décisions finales sur les objets présents dans l'image et leur emplacement.
Les modèles de détection populaires comme Faster R-CNN et DETR utilisent ResNet-50 pour cette étape d'extraction de caractéristiques. Parce qu'il fait un bon travail de capture à la fois des détails fins et de la disposition générale d'une image, il aide ces modèles à faire des prédictions précises - même dans des scènes complexes.
Apprentissage par transfert avec ResNet-50
Un autre aspect intéressant du modèle ResNet-50 est sa capacité à prendre en charge l'apprentissage par transfert. Cela signifie que le modèle, initialement entraîné sur un vaste ensemble de données comme ImageNet pour la classification d'images, peut être adapté à de nouvelles tâches avec beaucoup moins de données.
Plutôt que de partir de zéro, la plupart des couches du modèle sont réutilisées, et seule la couche de classification finale est remplacée et réentraînée pour la nouvelle tâche. Cela permet de gagner du temps et est particulièrement utile lorsque les données étiquetées sont limitées.
Applications de vision par ordinateur de ResNet-50
L'architecture de ResNet-50 l'a rendu utile pour un large éventail d'applications de vision par ordinateur. Il a été particulièrement important au début de l'apprentissage profond, aidant à faire passer la technologie de Vision IA de la recherche à l'utilisation dans le monde réel. En résolvant des défis clés, il a contribué à ouvrir la voie aux modèles plus avancés que nous voyons dans les applications d'aujourd'hui.
Imagerie médicale pilotée par ResNet-50
ResNet-50 a été l'un des premiers modèles utilisés dans l'imagerie médicale basée sur l'apprentissage profond. Les chercheurs l'ont utilisé pour identifier les schémas de maladies dans les radiographies, les IRM et autres examens diagnostiques. Par exemple, il a aidé à détecter des tumeurs et à classifier des images rétiniennes diabétiques pour soutenir le diagnostic en ophtalmologie.
Bien que des modèles plus avancés soient maintenant utilisés dans les outils cliniques, ResNet-50 a joué un rôle clé dans les premières recherches médicales sur l'IA. Sa facilité d'utilisation et sa conception modulaire en ont fait un choix approprié pour la création de prototypes de systèmes de diagnostic.
Fig 4. Détection de tumeurs cérébrales basée sur ResNet-50.
Automatisation industrielle alimentée par ResNet-50
De même, ResNet-50 a également été appliqué dans des contextes industriels. Par exemple, dans la fabrication, il a été utilisé dans la recherche et les systèmes pilotes pour détecter les défauts de surface sur des matériaux tels que l'acier, le béton et les pièces peintes.
Il a également été testé dans des configurations pour identifier les piqûres, les fissures ou les dépôts qui se forment pendant la coulée ou l'assemblage. ResNet-50 est bien adapté à ces tâches car il peut repérer les différences subtiles dans la texture de la surface, une capacité importante pour le contrôle de la qualité.
Bien que des modèles plus avancés comme YOLO11 soient maintenant couramment utilisés dans les systèmes de production, ResNet-50 joue toujours un rôle important dans la recherche académique et l'évaluation comparative, en particulier pour les tâches de classification d'images.
Fig 6. Inspection de surface à l'aide de Resnet-50.
Avantages et limitations de ResNet-50
Voici un aperçu de certains des avantages de ResNet-50 :
Solide performance de base : ResNet-50 offre une précision solide dans un large éventail de tâches, ce qui en fait une référence fiable dans les projets de recherche et appliqués.
Bien documenté et largement étudié : Son architecture est bien comprise et documentée de manière approfondie, ce qui facilite le dépannage et l'apprentissage pour les développeurs et les chercheurs.
Polyvalent dans tous les domaines : De l’imagerie médicale à la fabrication, ResNet-50 a été appliqué avec succès à une variété de problèmes du monde réel, prouvant ainsi sa flexibilité.
Parallèlement, voici un aperçu des limitations de ResNet-50 :
Utilisation élevée des ressources : ResNet-50 nécessite plus de mémoire et de puissance de calcul que les modèles légers, ce qui peut le rendre moins adapté aux appareils mobiles ou aux applications en temps réel.
Surapprentissage sur de petits jeux de données : En raison de sa profondeur et de sa complexité, ResNet-50 peut surapprendre lorsqu'il est entraîné sur des données limitées sans techniques de régularisation appropriées.
Taille d’entrée fixe : ResNet-50 s’attend généralement à ce que les images aient une taille spécifique, comme 224 × 224 pixels. Les images doivent donc souvent être redimensionnées ou recadrées, ce qui peut parfois supprimer des détails importants.
Principaux points à retenir
ResNet-50 a prouvé que des réseaux très profonds pouvaient être entraînés efficacement tout en offrant de solides performances sur les tâches visuelles. Son architecture a offert un cadre clair et pratique pour construire des modèles plus profonds qui fonctionnaient de manière fiable.
Après sa sortie, les chercheurs ont développé la conception, créant des versions plus profondes comme ResNet-101 et ResNet-152. Dans l'ensemble, ResNet-50 est un modèle clé qui a contribué à façonner la façon dont l'apprentissage profond est utilisé dans la vision par ordinateur aujourd'hui.