Découvrez les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.
Les réseaux de capsules, souvent abrégés en CapsNets, sont un type d'architecture de réseau neuronal (NN) conçu pour surmonter certaines des principales limitations des réseaux neuronaux convolutionnels (CNN). Introduits par Geoffrey Hinton et son équipe, les CapsNets visent à mieux reconnaître les relations hiérarchiques entre les caractéristiques d'une image. Contrairement aux neurones d'un CNN standard qui produisent une seule valeur scalaire, les "capsules" d'un CapsNet produisent un vecteur, ce qui leur permet d'encoder des informations plus détaillées sur les propriétés d'un objet, telles que sa pose (position, taille, orientation), sa déformation et sa texture. Cette structure les rend intrinsèquement plus robustes aux changements de point de vue et d'orientation.
L'innovation centrale des CapsNets réside dans leur capacité à préserver les hiérarchies spatiales entre les caractéristiques. Alors qu'un CNN peut reconnaître les composantes d'un visage—comme une bouche, un nez et des yeux—il ne comprend pas explicitement leurs relations spatiales. Les CapsNets, cependant, utilisent des groupes de neurones appelés capsules pour identifier ces parties et leurs orientations relatives. Ceci est réalisé grâce à un processus appelé « routage dynamique », où les capsules de niveau inférieur envoient leur sortie aux capsules de niveau supérieur qui peuvent le mieux rendre compte de leurs résultats. Cette approche est fondamentalement différente des couches de pooling dans les CNN, qui écartent souvent des informations spatiales importantes. Le concept original a été détaillé dans l'article Dynamic Routing Between Capsules.
La principale distinction entre les CapsNets et les CNN réside dans la façon dont ils gèrent l'information spatiale et l'abstraction.
Bien que des modèles comme Ultralytics YOLO soient hautement optimisés pour la vitesse et la précision dans les tâches pratiques de vision par ordinateur (CV), les CapsNets représentent une philosophie architecturale alternative axée sur l'amélioration de la compréhension fondamentale des scènes visuelles. Vous pouvez explorer les comparaisons entre différents modèles de détection d'objets pour comprendre le paysage actuel.
Bien que les CapsNets soient encore principalement un domaine de recherche active et moins couramment déployées que les modèles établis comme YOLO11, elles se sont révélées prometteuses dans plusieurs domaines :
D’autres applications potentielles incluent l’amélioration de la détection d’objets, en particulier pour les scènes encombrées, l’amélioration de la compréhension des scènes en robotique et la contribution à des systèmes de perception plus robustes pour les véhicules autonomes. Bien que les exigences de calcul restent un défi, la recherche en cours vise à optimiser l’efficacité de CapsNet pour des applications plus larges d’apprentissage automatique (AA) et l’intégration potentielle dans des frameworks tels que PyTorch ou TensorFlow.