Glossaire

Capsule Networks (CapsNet)

Découvre les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Les réseaux de capsules, souvent abrégés en CapsNets, représentent un type innovant d'architecture de réseau neuronal (NN) conçu comme une alternative aux réseaux neuronaux convolutionnels (CNN) traditionnels. Présentés pour la première fois par le chercheur en intelligence artificielle Geoffrey Hinton et son équipe, les CapsNets visent à remédier aux limites fondamentales de la façon dont les CNN traitent les hiérarchies spatiales et les relations entre les caractéristiques d'une image. Alors que les CNN excellent dans l'extraction de caractéristiques, leur utilisation de couches de mise en commun peut entraîner une perte d'informations spatiales précises. Les CapsNets proposent une approche différente en utilisant des "capsules" - des groupes de neurones qui produisent des vecteurs au lieu de valeurs scalaires uniques. Ces vecteurs codent des informations plus riches sur les caractéristiques détectées, y compris des propriétés telles que la pose (position, orientation, échelle) et la probabilité de présence de la caractéristique. Cette structure permet aux CapsNets de mieux modéliser les relations entre la partie et le tout et de conserver la conscience de l'espace, ce qui pourrait améliorer la résistance aux changements de point de vue dans les tâches de vision par ordinateur (VPI).

Concepts de base

L'élément central d'un CapsNet est la "capsule". Contrairement aux neurones standard, chaque capsule détecte une entité spécifique dans une région de l'entrée et émet un vecteur. La magnitude (longueur) du vecteur indique la probabilité que l'entité détectée existe, tandis que son orientation représente les paramètres d'instanciation de l'entité, tels que sa pose précise ou les détails de sa texture. Cette sortie basée sur un vecteur contraste fortement avec l'activation scalaire typique de nombreux autres modèles d'apprentissage profond (DL).

Les capsules des couches inférieures génèrent des prédictions pour les sorties des capsules des couches supérieures à l'aide de matrices de transformation. Un mécanisme crucial connu sous le nom de "routing-by-agreement" (routage par accord) détermine dynamiquement les connexions entre ces couches. Si les prédictions de plusieurs capsules de niveau inférieur s'alignent (s'accordent) sur la présence et la pose d'une caractéristique de niveau supérieur, la capsule de niveau supérieur correspondante devient active. Ce processus de routage dynamique permet au réseau de reconnaître les pièces et de comprendre comment elles s'assemblent en un tout, en préservant efficacement les hiérarchies spatiales. Les idées fondamentales sont détaillées dans l'article"Routage dynamique entre les capsules". Cette approche est utile pour les tâches nécessitant une compréhension nuancée de la composition des objets, ce qui permet d'améliorer les performances tout en réduisant la nécessité d'augmenter les données de façon importante.

Principales différences avec les réseaux neuronaux convolutifs (CNN)

Les CapsNets offrent un paradigme différent par rapport aux CNN largement utilisés, en particulier pour le traitement des données spatiales et la représentation des caractéristiques :

  • Traitement de la hiérarchie spatiale : Les CNN perdent souvent des informations spatiales à cause des couches de mise en commun, qui résument la présence des caractéristiques sur des régions. Les CapsNets sont conçus pour préserver explicitement les relations de pose hiérarchiques entre les caractéristiques, ce qui les rend intrinsèquement plus aptes à comprendre la structure des objets.
  • Représentation des caractéristiques : Les CNN utilisent généralement des activations scalaires pour représenter la présence d'une caractéristique. Les CapsNets utilisent des sorties vectorielles (capsules) qui codent à la fois la présence et les propriétés (comme la pose et la déformation) d'une caractéristique.
  • Équivariance des points de vue : Les CapsNets visent l'équivariance, c'est-à-dire que la représentation change de façon prévisible avec les changements de point de vue, alors que les CNN nécessitent souvent de grandes quantités de données d'entraînement pour apprendre l'invariance du point de vue.
  • Mécanisme de routage : Les CNN utilisent le max-pooling ou d'autres méthodes de mise en commun statique. Les CapsNets emploient un routage dynamique par accord, qui pondère les connexions en fonction de la cohérence des prédictions entre les couches de capsules.

Avantages des réseaux de capsules

Les CapsNets présentent plusieurs avantages potentiels par rapport aux architectures de réseaux neuronaux conventionnels :

  • Meilleure résistance aux points de vue : Leur structure leur permet de mieux s'adapter à de nouveaux points de vue sans qu'il soit nécessaire de voir ces points de vue spécifiques pendant la formation.
  • Meilleure modélisation des relations entre les parties et l'ensemble : Le mécanisme de routage aide CapsNets à comprendre comment les pièces se combinent pour former des objets, ce qui est crucial pour les tâches complexes de reconnaissance d'images.
  • Efficacité des données : Ils pourraient atteindre une grande précision avec des ensembles de données plus petits que les CNN, en particulier pour les tâches sensibles aux relations spatiales.
  • Segmentation des objets qui se chevauchent : La capacité de représenter plusieurs entités et leurs poses dans une région pourrait faciliter des tâches telles que la segmentation d'instances où les objets se chevauchent de manière significative. La gestion de la formation et du déploiement peut se faire à l'aide de plateformes comme Ultralytics HUB.

Applications dans le monde réel

Bien que les CapsNets soient encore principalement un domaine de recherche active et qu'ils soient moins couramment déployés que les modèles établis tels que Ultralytics YOLO ou YOLO11ils se sont révélés prometteurs dans plusieurs domaines :

  1. Reconnaissance de caractères : Les CapsNets ont obtenu des résultats de pointe sur l'ensemble de données MNIST de chiffres manuscrits, démontrant leur capacité à gérer efficacement les variations d'orientation et de style, surpassant les approches traditionnelles de classification d'images dans certains points de référence.
  2. Analyse d'images médicales : Leur capacité à comprendre les configurations spatiales les rend aptes à analyser les scans médicaux. Par exemple, la recherche a exploré l'utilisation des CapsNets pour des tâches telles que la segmentation des tumeurs cérébrales, où l'identification de la forme et de l'emplacement précis des anomalies est essentielle. Cela relève du domaine plus large de l'analyse d'images médicales.

D'autres applications potentielles incluent l'amélioration de la détection d'objets, en particulier pour les scènes encombrées, l'amélioration de la compréhension de la scène en robotique et la contribution à des systèmes de perception plus robustes pour les véhicules autonomes. Bien que les exigences en matière de calcul restent un défi, les recherches en cours visent à optimiser l'efficacité de CapsNet pour des applications plus larges d'apprentissage machine (ML) et une intégration potentielle dans des cadres tels que PyTorch ou TensorFlow. Tu peux explorer les comparaisons entre différents modèles de détection d'objets pour comprendre où les CapsNets pourraient s'insérer dans le paysage futur.

Tout lire