Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réseaux de capsules (CapsNet)

Découvrez les réseaux de capsules (CapsNets) : Une architecture de réseau neuronal révolutionnaire qui excelle dans les hiérarchies spatiales et les relations entre les caractéristiques.

Les réseaux de capsules (CapsNets) représentent une évolution sophistiquée dans le domaine de l'apprentissage profond (DL). l'apprentissage profond (DL) conçu pour répondre aux spécifiques des réseaux neuronaux réseaux neuronaux convolutifs (CNN) traditionnels. Introduite pour la première fois par le célèbre chercheur Geoffrey Hinton et ses collègues, cette architecture organise les neurones en groupes appelés "capsules". Contrairement aux neurones standard qui émettent une seule valeur d'activation scalaire, une capsule émet un vecteur. L'orientation et la longueur de ce vecteur permettent au d'encoder des informations plus riches sur un objet, telles que sa position précise, sa taille, son orientation et sa texture. Cette capacité permet au modèle de mieux comprendre les relations hiérarchiques entre les caractéristiques. de réaliser des "graphiques inversés" pour déconstruire une scène visuelle.

Comprendre le mécanisme de base

La caractéristique principale d'un CapsNet est sa capacité à préserver les relations spatiales entre les différentes parties d'un objet. d'un objet. Dans un processus vision par ordinateur (CV) utilisant des CNN, les couches les couches utilisent souvent des opérations de pooling pour réduire la dimensionnalité, ce qui écarte généralement les données spatiales précises pour obtenir l'invariance. l'invariance. Cependant, les CapsNets visent l'"équivariance", ce qui signifie que si un objet se déplace ou pivote dans l'image, la représentation vectorielle de la capsule ne sera pas affectée par l'invariance. l'image, la représentation vectorielle de la capsule change proportionnellement au lieu de devenir méconnaissable.

Ce résultat est obtenu grâce à un processus appelé "routage dynamique" ou "routage par accord". Au lieu de simplement les signaux à tous les neurones de la couche suivante, les capsules de niveau inférieur envoient leurs sorties aux capsules de niveau supérieur qui sont "d'accord" avec leur prédiction. supérieures qui sont "en accord" avec leur prédiction. Par exemple, une capsule détectant un nez enverra un signal fort à une capsule de visage si l'orientation spatiale s'aligne sur celle du nez. une capsule de visage si l'orientation spatiale s'aligne, ce qui renforce la compréhension structurelle du processus d'extraction des caractéristiques. processus d'extraction de caractéristiques. Ce concept a été célèbre dans le document de recherche concernant Routage dynamique entre capsules.

Différencier les CapsNets des CNNs

Bien que les deux architectures soient essentielles à l'apprentissage l 'apprentissage automatique (ML), elles divergent divergent considérablement dans la façon dont elles traitent les données visuelles :

  • Sorties scalaires ou vectorielles: Les neurones CNN fournissent une valeur scalaire indiquant la présence d'une caractéristique. Les CapsNets utilisent des sorties vectorielles pour représenter l'existence d'une entité et ses propriétés (pose, déformation, teinte).
  • Mise en commun ou routage: Les CNN utilisent couches de mise en commun (comme la mise en commun max ) pour obtenir une invariance translationnelle, perdant souvent des détails de localisation. Les CapsNets utilisent le routage dynamique pour préserver les hiérarchies spatiales, ce qui les rend potentiellement plus efficaces pour des tâches telles que l'estimation de la pose. l 'estimation de la pose.
  • Efficacité des données: Comme les CapsNets codent les variations des points de vue en interne, ils peuvent nécessiter moins de données de formation pour se généraliser que les réseaux traditionnels. de données d'entraînement pour se généraliser par rapport aux traditionnels, qui nécessitent souvent une de données pour apprendre les rotations ou les transformations affines.

Applications concrètes

Bien que les CapsNets soient très gourmands en ressources informatiques et moins largement adoptés que les architectures optimisées telles que le YOLO11ils se sont révélés prometteurs dans certains domaines à fort enjeu domaines à fort enjeu :

  1. Analyse d'images médicales: La capacité à gérer les hiérarchies spatiales rend les CapsNets très utiles pour l 'analyse d'images médicales. Par exemple, des chercheurs les ont appliqués à l'analyse d'images médicales, les chercheurs les ont appliqués à la segmentation des tumeurs cérébrales segmentation des tumeurs cérébrales, où la distinction de la la forme et l'orientation précises d'une tumeur par rapport aux tissus environnants est essentielle pour un diagnostic précis.
  2. Reconnaissance de chiffres manuscrits: CapsNets a obtenu des performances de pointe sur l'ensemble de données l 'ensemble de donnéesMNIST , en particulier dans les scénarios de chiffres qui se chevauchent, où les modèles de modèles de classification d'images standard pourraient avoir du mal à démêler les caractéristiques. de classification d'images pourraient avoir du mal à démêler les caractéristiques.

Mise en œuvre pratique

Bien que les CapsNets offrent des avantages théoriques, les normes industrielles modernes favorisent souvent des modèles hautement optimisés à base de CNN ou de transformateurs pour des raisons de rapidité. ou Transformer hautement optimisés pour des raisons de rapidité. Cependant, vous pouvez expérimenter des tâches de classification - la référence principale pour les CapsNets - en utilisant l'outil ultralytics de la bibliothèque. L'exemple suivant montre l'entraînement d'un modèle de classification YOLO11 sur l'ensemble de données MNIST , un terrain de jeu commun pour tester la reconnaissance de caractéristiques hiérarchiques.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Perspectives d'avenir

La recherche sur les réseaux de capsules continue d'influencer le développement de la sécurité et de l'interprétabilité de l'IA. la sécurité et l'interprétabilité de l 'IA. En modélisant explicitement les relations les relations partie-tout, ils offrent une voie vers une IA plus explicable par rapport à la nature de "boîte noire" de certains réseaux profonds. certains réseaux profonds. Les progrès futurs pourraient se concentrer sur l'intégration de ces concepts dans les domaines suivants détection d'objets en 3D et la réduction du de calcul des algorithmes de routage, ce qui pourrait permettre de fusionner l'efficacité de modèles tels que YOLO26 avec la robustesse de l'analyse spatiale. YOLO26 avec la compréhension spatiale robuste des capsules.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant