Glossaire

Capsule Networks (CapsNet)

Découvrez les réseaux Capsule (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre caractéristiques.

Les réseaux de capsules, souvent abrégés en CapsNets, sont un type d'architecture de réseau neuronal (RN) conçu pour surmonter certaines des principales limites des réseaux neuronaux convolutionnels (CNN). Introduits par Geoffrey Hinton et son équipe, les CapsNets visent à mieux reconnaître les relations hiérarchiques entre les caractéristiques d'une image. Contrairement aux neurones d'un CNN standard qui produisent une seule valeur scalaire, les "capsules" d'un CapsNet produisent un vecteur, ce qui leur permet d'encoder des informations plus détaillées sur les propriétés d'un objet, telles que sa pose (position, taille, orientation), sa déformation et sa texture. Cette structure les rend intrinsèquement plus robustes aux changements de point de vue et d'orientation.

Comment fonctionnent les réseaux de capsules ?

L'innovation principale des CapsNets est leur capacité à préserver les hiérarchies spatiales entre les caractéristiques. Si un CNN peut reconnaître les composants d'un visage (bouche, nez et yeux), il ne comprend pas explicitement leurs relations spatiales. Les CapsNets, en revanche, utilisent des groupes de neurones appelés capsules pour identifier ces parties et leurs orientations relatives. Pour ce faire, ils utilisent un processus appelé "routage dynamique", dans lequel les capsules de niveau inférieur envoient leurs résultats à des capsules de niveau supérieur qui peuvent le mieux rendre compte de leurs découvertes. Cette approche est fondamentalement différente des couches de mise en commun des CNN, qui écartent souvent des informations spatiales importantes. Le concept original a été détaillé dans l'article intitulé " Dynamic Routing Between Capsules" (routage dynamique entre capsules).

CapsNets vs. Réseaux neuronaux convolutifs

La principale différence entre les CapsNets et les CNN réside dans la manière dont ils traitent les informations spatiales et l'abstraction.

  • Invariance spatiale : Les CNN parviennent à l'invariance spatiale en regroupant les couches, ce qui peut entraîner une perte de données de localisation précises. Les CapsNets, en revanche, sont conçus pour être "équivariants", ce qui signifie qu'ils peuvent comprendre et préserver les informations relatives à la pose d'un objet lorsqu'il se déplace dans l'image.
  • Efficacité des données : Grâce à leur structure interne sophistiquée, les CapsNets peuvent souvent atteindre une grande précision avec beaucoup moins de données d'entraînement que les modèles d'apprentissage profond (DL) gourmands en données.
  • Représentation hiérarchique : Les CapsNets construisent un arbre d'analyse explicite des entités visuelles, ce qui leur permet de comprendre l'ensemble comme une composition de ses parties. Il s'agit d'une manière plus intuitive d'effectuer des tâches telles que la détection d'objets que celle offerte par les CNN standard.

Alors que des modèles comme Ultralytics YOLO sont hautement optimisés pour la vitesse et la précision dans les tâches pratiques de vision par ordinateur (VA), les CapsNets représentent une philosophie architecturale alternative axée sur l'amélioration de la compréhension fondamentale des scènes visuelles. Vous pouvez explorer les comparaisons entre les différents modèles de détection d'objets pour comprendre le paysage actuel.

Applications dans le monde réel

Bien que les CapsNets soient encore principalement un domaine de recherche active et qu'ils soient moins couramment déployés que des modèles établis tels que YOLO11, ils se sont révélés prometteurs dans plusieurs domaines :

  1. Reconnaissance de caractères : Les CapsNets ont obtenu des résultats de pointe sur l'ensemble de données MNIST de chiffres manuscrits, démontrant leur capacité à gérer efficacement les variations d'orientation et de style, surpassant les approches traditionnelles de classification d'images dans certains points de référence.
  2. Analyse d'images médicales : Leur capacité à comprendre les configurations spatiales les rend adaptés à l'analyse des scanners médicaux. Par exemple, la recherche a exploré l'utilisation des CapsNets pour des tâches telles que la segmentation des tumeurs cérébrales, où l'identification de la forme et de l'emplacement précis des anomalies est cruciale. Ces tâches relèvent du domaine plus large de l'analyse d'images médicales.

D'autres applications potentielles incluent l'amélioration de la détection d'objets, en particulier pour les scènes encombrées, l'amélioration de la compréhension de la scène en robotique et la contribution à des systèmes de perception plus robustes pour les véhicules autonomes. Bien que les exigences en matière de calcul restent un défi, les recherches en cours visent à optimiser l'efficacité de CapsNet pour des applications plus larges d'apprentissage machine (ML) et une intégration potentielle dans des cadres tels que PyTorch ou TensorFlow.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers