Découvrez les réseaux Capsule (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre caractéristiques.
Les réseaux de capsules, souvent abrégés en CapsNets, sont un type d'architecture de réseau neuronal (RN) conçu pour surmonter certaines des principales limites des réseaux neuronaux convolutionnels (CNN). Introduits par Geoffrey Hinton et son équipe, les CapsNets visent à mieux reconnaître les relations hiérarchiques entre les caractéristiques d'une image. Contrairement aux neurones d'un CNN standard qui produisent une seule valeur scalaire, les "capsules" d'un CapsNet produisent un vecteur, ce qui leur permet d'encoder des informations plus détaillées sur les propriétés d'un objet, telles que sa pose (position, taille, orientation), sa déformation et sa texture. Cette structure les rend intrinsèquement plus robustes aux changements de point de vue et d'orientation.
L'innovation principale des CapsNets est leur capacité à préserver les hiérarchies spatiales entre les caractéristiques. Si un CNN peut reconnaître les composants d'un visage (bouche, nez et yeux), il ne comprend pas explicitement leurs relations spatiales. Les CapsNets, en revanche, utilisent des groupes de neurones appelés capsules pour identifier ces parties et leurs orientations relatives. Pour ce faire, ils utilisent un processus appelé "routage dynamique", dans lequel les capsules de niveau inférieur envoient leurs résultats à des capsules de niveau supérieur qui peuvent le mieux rendre compte de leurs découvertes. Cette approche est fondamentalement différente des couches de mise en commun des CNN, qui écartent souvent des informations spatiales importantes. Le concept original a été détaillé dans l'article intitulé " Dynamic Routing Between Capsules" (routage dynamique entre capsules).
La principale différence entre les CapsNets et les CNN réside dans la manière dont ils traitent les informations spatiales et l'abstraction.
Alors que des modèles comme Ultralytics YOLO sont hautement optimisés pour la vitesse et la précision dans les tâches pratiques de vision par ordinateur (VA), les CapsNets représentent une philosophie architecturale alternative axée sur l'amélioration de la compréhension fondamentale des scènes visuelles. Vous pouvez explorer les comparaisons entre les différents modèles de détection d'objets pour comprendre le paysage actuel.
Bien que les CapsNets soient encore principalement un domaine de recherche active et qu'ils soient moins couramment déployés que des modèles établis tels que YOLO11, ils se sont révélés prometteurs dans plusieurs domaines :
D'autres applications potentielles incluent l'amélioration de la détection d'objets, en particulier pour les scènes encombrées, l'amélioration de la compréhension de la scène en robotique et la contribution à des systèmes de perception plus robustes pour les véhicules autonomes. Bien que les exigences en matière de calcul restent un défi, les recherches en cours visent à optimiser l'efficacité de CapsNet pour des applications plus larges d'apprentissage machine (ML) et une intégration potentielle dans des cadres tels que PyTorch ou TensorFlow.