Capsule Networks (CapsNet)

Explore les réseaux à capsules (CapsNets) et comment ils résolvent les limitations des CNN. Apprends le routage dynamique, les hiérarchies spatiales et la comparaison entre CapsNets et YOLO26.

Les réseaux de capsules, souvent abrégés en CapsNets, représentent une architecture avancée dans le domaine de l'apprentissage profond, conçue pour surmonter les limites spécifiques rencontrées dans les réseaux neuronaux traditionnels. Introduits par Geoffrey Hinton et son équipe, les CapsNets tentent de reproduire l'organisation neuronale biologique du cerveau humain plus fidèlement que les modèles standard. Contrairement à un réseau neuronal convolutif (CNN) typique, qui excelle dans la détection de caractéristiques mais perd souvent les relations spatiales à cause du sous-échantillonnage, un réseau de capsules organise les neurones en groupes appelés "capsules". Ces capsules encodent non seulement la probabilité de présence d'un objet, mais aussi ses propriétés spécifiques, telles que l'orientation, la taille et la texture, préservant ainsi efficacement les relations spatiales hiérarchiques au sein des données visuelles.

Link to this sectionLa limite des CNN traditionnels#

Pour comprendre l'innovation des CapsNets, il est utile d'examiner comment fonctionnent les modèles de vision par ordinateur standard. Un CNN classique utilise des couches d' extraction de caractéristiques suivies de couches de regroupement (pooling) — spécifiquement le max pooling — pour réduire la charge computationnelle et atteindre une invariance par translation. Cela signifie qu'un CNN peut identifier un "chat" quel que soit son emplacement dans l'image.

Cependant, ce processus écarte souvent les données de localisation précises, menant au "problème de Picasso" : un CNN pourrait classer un visage correctement même si la bouche est sur le front, simplement parce que toutes les caractéristiques nécessaires sont présentes. Les CapsNets résolvent ce problème en supprimant les couches de regroupement et en les remplaçant par un processus qui respecte les hiérarchies spatiales des objets.

Link to this sectionComment fonctionnent les réseaux de capsules#

Le bloc de construction central de cette architecture est la capsule, un ensemble imbriqué de neurones qui produit un vecteur plutôt qu'une valeur scalaire. En mathématiques vectorielles, un vecteur possède à la fois une magnitude et une direction. Dans un CapsNet :

Magnitude (Longueur) : Représente la probabilité qu'une entité spécifique existe dans l'entrée actuelle.
Direction (Orientation) : Encode les paramètres d'instanciation, tels que l' estimation de pose, l'échelle et la rotation de l'objet.

Les capsules dans les couches inférieures (détectant des formes simples comme les bords) prédisent la sortie des capsules dans les couches supérieures (détectant des objets complexes comme les yeux ou les pneus). Cette communication est gérée par un algorithme appelé "routage dynamique" ou "routage par accord". Si la prédiction d'une capsule de niveau inférieur s'aligne avec l'état de la capsule de niveau supérieur, la connexion entre elles est renforcée. Cela permet au réseau de reconnaître des objets sous différents points de vue 3D sans nécessiter l'énorme augmentation de données habituellement nécessaire pour apprendre aux CNN la rotation et l'échelle.

Link to this sectionDifférences clés : CapsNets vs CNNs#

Bien que les deux architectures soient fondamentales pour la vision par ordinateur (CV), elles diffèrent dans la manière dont elles traitent et représentent les données visuelles :

Scalaire vs Vecteur : Les neurones CNN utilisent des sorties scalaires pour signaler la présence d'une caractéristique. Les CapsNets utilisent des vecteurs pour encoder la présence (longueur) et les paramètres de pose (orientation).
Routage vs Regroupement (Pooling) : Les CNN utilisent le pooling pour sous-échantillonner les données, perdant souvent les détails de localisation. Les CapsNets utilisent le routage dynamique pour préserver les données spatiales, les rendant très efficaces pour les tâches nécessitant un suivi d'objet précis.
Efficacité des données : Parce que les capsules comprennent implicitement les points de vue 3D et les transformations affines, elles peuvent souvent généraliser à partir de moins de données d'entraînement par rapport aux CNN, qui peuvent nécessiter de nombreux exemples pour apprendre chaque rotation possible d'un objet.

Link to this sectionApplications concrètes#

Bien que les CapsNets soient souvent plus coûteux en calcul que des modèles optimisés comme YOLO26, ils offrent des avantages distincts dans des domaines spécialisés :

Analyse d'images médicales : Dans le domaine de la santé, l'orientation et la forme précises d'une anomalie sont critiques. Les chercheurs ont appliqué les CapsNets à la segmentation des tumeurs cérébrales, où le modèle doit distinguer une tumeur des tissus environnants sur la base de hiérarchies spatiales subtiles que les CNN standard pourraient lisser. Tu peux explorer des recherches connexes sur les réseaux de capsules en imagerie médicale.
Reconnaissance de chiffres superposés : Les CapsNets ont obtenu des résultats de pointe sur le jeu de données MNIST, spécifiquement dans les scénarios où les chiffres se chevauchent. Parce que le réseau suit la "pose" de chaque chiffre, il peut démêler deux nombres superposés (par exemple, un '3' sur un '5') en tant qu'objets distincts plutôt que de les fusionner en une seule carte de caractéristiques confuse.

Link to this sectionContexte pratique et mise en œuvre#

Les réseaux de capsules sont principalement une architecture de classification. Bien qu'ils offrent une robustesse théorique, les applications industrielles modernes privilégient souvent les CNN haute vitesse ou les Transformers pour des performances en temps réel. Cependant, comprendre les benchmarks de classification utilisés pour les CapsNets, tels que MNIST, est utile.

L'exemple suivant montre comment entraîner un modèle de classification YOLO moderne sur le jeu de données MNIST en utilisant le package ultralytics. Cela correspond à la tâche de référence principale utilisée pour valider les réseaux de capsules.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Link to this sectionL'avenir des capsules et de l'IA visuelle#

Les principes derrière les réseaux de capsules continuent d'influencer la recherche sur la sécurité de l'IA et l'interprétabilité. En modélisant explicitement les relations partie-tout, les capsules offrent une alternative "boîte transparente" à la nature "boîte noire" des réseaux neuronaux profonds, rendant les décisions plus explicables. Les développements futurs cherchent à combiner la robustesse spatiale des capsules avec la vitesse d'inférence d'architectures comme YOLO11 ou le plus récent YOLO26 pour améliorer les performances en détection d'objets 3D et en robotique. Les chercheurs explorent également les capsules matricielles avec routage EM pour réduire davantage le coût computationnel de l'algorithme d'accord.

Pour les développeurs cherchant à gérer des jeux de données et à entraîner des modèles efficacement, la plateforme Ultralytics fournit un environnement unifié pour annoter les données, entraîner dans le cloud et déployer des modèles qui équilibrent la vitesse des CNN avec la précision requise pour les tâches de vision complexes.

Explore solutions

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

Capsule Networks (CapsNet)

Link to this sectionLa limite des CNN traditionnels#

Link to this sectionComment fonctionnent les réseaux de capsules#

Link to this sectionDifférences clés : CapsNets vs CNNs#

Link to this sectionApplications concrètes#

Link to this sectionContexte pratique et mise en œuvre#

Link to this sectionL'avenir des capsules et de l'IA visuelle#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !