Découvrez les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.
Les réseaux de capsules (CapsNets) représentent une évolution sophistiquée dans le domaine de l'apprentissage profond (DL). l'apprentissage profond (DL) conçu pour répondre aux spécifiques des réseaux neuronaux réseaux neuronaux convolutifs (CNN) traditionnels. Introduite pour la première fois par le célèbre chercheur Geoffrey Hinton et ses collègues, cette architecture organise les neurones en groupes appelés "capsules". Contrairement aux neurones standard qui émettent une seule valeur d'activation scalaire, une capsule émet un vecteur. L'orientation et la longueur de ce vecteur permettent au d'encoder des informations plus riches sur un objet, telles que sa position précise, sa taille, son orientation et sa texture. Cette capacité permet au modèle de mieux comprendre les relations hiérarchiques entre les caractéristiques. de réaliser des "graphiques inversés" pour déconstruire une scène visuelle.
La caractéristique principale d'un CapsNet est sa capacité à préserver les relations spatiales entre les différentes parties d'un objet. d'un objet. Dans un processus vision par ordinateur (CV) utilisant des CNN, les couches les couches utilisent souvent des opérations de pooling pour réduire la dimensionnalité, ce qui écarte généralement les données spatiales précises pour obtenir l'invariance. l'invariance. Cependant, les CapsNets visent l'"équivariance", ce qui signifie que si un objet se déplace ou pivote dans l'image, la représentation vectorielle de la capsule ne sera pas affectée par l'invariance. l'image, la représentation vectorielle de la capsule change proportionnellement au lieu de devenir méconnaissable.
Ce résultat est obtenu grâce à un processus appelé "routage dynamique" ou "routage par accord". Au lieu de simplement les signaux à tous les neurones de la couche suivante, les capsules de niveau inférieur envoient leurs sorties aux capsules de niveau supérieur qui sont "d'accord" avec leur prédiction. supérieures qui sont "en accord" avec leur prédiction. Par exemple, une capsule détectant un nez enverra un signal fort à une capsule de visage si l'orientation spatiale s'aligne sur celle du nez. une capsule de visage si l'orientation spatiale s'aligne, ce qui renforce la compréhension structurelle du processus d'extraction des caractéristiques. processus d'extraction de caractéristiques. Ce concept a été célèbre dans le document de recherche concernant Routage dynamique entre capsules.
Bien que les deux architectures soient essentielles à l'apprentissage l 'apprentissage automatique (ML), elles divergent divergent considérablement dans la façon dont elles traitent les données visuelles :
Bien que les CapsNets soient très gourmands en ressources informatiques et moins largement adoptés que les architectures optimisées telles que le YOLO11ils se sont révélés prometteurs dans certains domaines à fort enjeu domaines à fort enjeu :
Bien que les CapsNets offrent des avantages théoriques, les normes industrielles modernes favorisent souvent des modèles hautement optimisés à base de CNN ou de transformateurs pour des raisons de rapidité.
ou Transformer hautement optimisés pour des raisons de rapidité. Cependant, vous pouvez expérimenter des tâches de classification - la référence principale pour les
CapsNets - en utilisant l'outil ultralytics de la bibliothèque. L'exemple suivant montre l'entraînement d'un modèle de classification YOLO11
sur l'ensemble de données MNIST , un terrain de jeu commun pour tester la reconnaissance de caractéristiques hiérarchiques.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
La recherche sur les réseaux de capsules continue d'influencer le développement de la sécurité et de l'interprétabilité de l'IA. la sécurité et l'interprétabilité de l 'IA. En modélisant explicitement les relations les relations partie-tout, ils offrent une voie vers une IA plus explicable par rapport à la nature de "boîte noire" de certains réseaux profonds. certains réseaux profonds. Les progrès futurs pourraient se concentrer sur l'intégration de ces concepts dans les domaines suivants détection d'objets en 3D et la réduction du de calcul des algorithmes de routage, ce qui pourrait permettre de fusionner l'efficacité de modèles tels que YOLO26 avec la robustesse de l'analyse spatiale. YOLO26 avec la compréhension spatiale robuste des capsules.