Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Réseaux de capsules (CapsNet)

Découvrez les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.

Les réseaux de capsules, souvent abrégés en CapsNets, sont un type d'architecture de réseau neuronal (NN) conçu pour surmonter certaines des principales limitations des réseaux neuronaux convolutionnels (CNN). Introduits par Geoffrey Hinton et son équipe, les CapsNets visent à mieux reconnaître les relations hiérarchiques entre les caractéristiques d'une image. Contrairement aux neurones d'un CNN standard qui produisent une seule valeur scalaire, les "capsules" d'un CapsNet produisent un vecteur, ce qui leur permet d'encoder des informations plus détaillées sur les propriétés d'un objet, telles que sa pose (position, taille, orientation), sa déformation et sa texture. Cette structure les rend intrinsèquement plus robustes aux changements de point de vue et d'orientation.

Comment fonctionnent les réseaux de capsules ?

L'innovation centrale des CapsNets réside dans leur capacité à préserver les hiérarchies spatiales entre les caractéristiques. Alors qu'un CNN peut reconnaître les composantes d'un visage—comme une bouche, un nez et des yeux—il ne comprend pas explicitement leurs relations spatiales. Les CapsNets, cependant, utilisent des groupes de neurones appelés capsules pour identifier ces parties et leurs orientations relatives. Ceci est réalisé grâce à un processus appelé « routage dynamique », où les capsules de niveau inférieur envoient leur sortie aux capsules de niveau supérieur qui peuvent le mieux rendre compte de leurs résultats. Cette approche est fondamentalement différente des couches de pooling dans les CNN, qui écartent souvent des informations spatiales importantes. Le concept original a été détaillé dans l'article Dynamic Routing Between Capsules.

CapsNets vs. Réseaux neuronaux convolutionnels

La principale distinction entre les CapsNets et les CNN réside dans la façon dont ils gèrent l'information spatiale et l'abstraction.

  • Invariance spatiale : Les CNN réalisent l'invariance spatiale grâce à des couches de pooling, ce qui peut entraîner une perte de données de localisation précises. Les CapsNets, en revanche, sont conçus pour être « équivariants », ce qui signifie qu'ils peuvent comprendre et préserver les informations de pose d'un objet lorsqu'il se déplace dans le cadre.
  • Efficacité des données : En raison de leur structure interne sophistiquée, les CapsNet peuvent souvent atteindre une précision élevée avec beaucoup moins de données d'entraînement par rapport aux modèles d'apprentissage profond (DL) gourmands en données.
  • Représentation hiérarchique : Les CapsNets construisent un arbre d'analyse explicite des entités visuelles, ce qui leur permet de comprendre l'ensemble comme une composition de ses parties. C'est une façon plus intuitive d'effectuer des tâches comme la détection d'objets que ce qui est offert par les CNN standard.

Bien que des modèles comme Ultralytics YOLO soient hautement optimisés pour la vitesse et la précision dans les tâches pratiques de vision par ordinateur (CV), les CapsNets représentent une philosophie architecturale alternative axée sur l'amélioration de la compréhension fondamentale des scènes visuelles. Vous pouvez explorer les comparaisons entre différents modèles de détection d'objets pour comprendre le paysage actuel.

Applications concrètes

Bien que les CapsNets soient encore principalement un domaine de recherche active et moins couramment déployées que les modèles établis comme YOLO11, elles se sont révélées prometteuses dans plusieurs domaines :

  1. Reconnaissance de caractères : Les CapsNets ont obtenu des résultats de pointe sur l'ensemble de données MNIST de chiffres manuscrits, démontrant leur capacité à gérer efficacement les variations d'orientation et de style, surpassant les approches traditionnelles de classification d'images dans certains benchmarks.
  2. Analyse d'images médicales : Leur force dans la compréhension des configurations spatiales les rend aptes à analyser les scans médicaux. Par exemple, des recherches ont exploré l'utilisation de CapsNets pour des tâches telles que la segmentation des tumeurs cérébrales, où l'identification de la forme et de l'emplacement précis des anomalies est essentielle. Cela relève du domaine plus vaste de l'analyse d'images médicales.

D’autres applications potentielles incluent l’amélioration de la détection d’objets, en particulier pour les scènes encombrées, l’amélioration de la compréhension des scènes en robotique et la contribution à des systèmes de perception plus robustes pour les véhicules autonomes. Bien que les exigences de calcul restent un défi, la recherche en cours vise à optimiser l’efficacité de CapsNet pour des applications plus larges d’apprentissage automatique (AA) et l’intégration potentielle dans des frameworks tels que PyTorch ou TensorFlow.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers