Scopri le Reti Capsula (CapsNet): un'architettura di rete neurale rivoluzionaria che eccelle nelle gerarchie spaziali e nelle relazioni tra le feature.
Le reti a capsula (CapsNets) rappresentano una sofisticata evoluzione nel campo del dell 'apprendimento profondo (DL), progettata per affrontare limitazioni riscontrate nelle tradizionali reti neurali convoluzionali (CNN). Introdotta per la prima volta dal famoso ricercatore Geoffrey Hinton e dai suoi colleghi, questa architettura organizza i neuroni in gruppi noti come "capsule". A differenza dei neuroni standard che emettono un singolo valore di attivazione scalare, una capsula emette un vettore. L'orientamento e la lunghezza del vettore consentono alla rete di codificare informazioni più ricche su un oggetto, come la sua posizione precisa, le dimensioni, l'orientamento e la consistenza. Questa capacità permette al modello di comprendere meglio le relazioni gerarchiche tra le caratteristiche, essenzialmente di "grafica inversa" per decostruire una scena visiva.
La caratteristica distintiva di una CapsNet è la capacità di preservare le relazioni spaziali tra le diverse parti di un oggetto. di un oggetto. In un flusso di lavoro standard visione computerizzata (CV) che utilizza le CNN, i livelli spesso utilizzano operazioni di pooling per ridurre la dimensionalità, che in genere scartano dati spaziali precisi per ottenere l'invarianza. invarianza. Tuttavia, le reti CapsNets mirano all'"equivarianza", ovvero se un oggetto si muove o ruota nell'immagine, il vettore della capsula si muove o ruota. nell'immagine, la rappresentazione vettoriale della capsula cambia proporzionalmente, invece di diventare irriconoscibile.
Questo si ottiene attraverso un processo chiamato "instradamento dinamico" o "instradamento per accordo". Invece di invece di inoltrare semplicemente i segnali a tutti i neuroni dello strato successivo, le capsule di livello inferiore inviano le loro uscite alle capsule di livello superiore che "concordano" con la loro previsione. di livello superiore che sono "d'accordo" con la loro previsione. Per esempio, una capsula che rileva un naso segnalerà con forza a una capsula se l'orientamento spaziale è in linea, rafforzando la comprensione strutturale del processo di estrazione delle caratteristiche. processo di estrazione delle caratteristiche. Questo concetto è stato concetto è stato illustrato nel documento di ricerca Instradamento dinamico tra capsule.
Sebbene entrambe le architetture siano fondamentali per il apprendimento automatico (ML), esse divergono significativamente nel modo in cui elaborano i dati visivi:
Sebbene le reti CapsNet siano computazionalmente intensive e meno adottate rispetto ad architetture ottimizzate come le reti CapsNet. YOLO11hanno dimostrato di essere promettenti in specifici domini ad alta domini ad alto rischio:
Sebbene le reti CapsNet offrano vantaggi teorici, i moderni standard di settore spesso privilegiano modelli altamente ottimizzati basati su CNN o
modelli basati su trasformatori per la velocità. Tuttavia, è possibile sperimentare compiti di classificazione - il principale parametro di riferimento per le CapsNet - utilizzando i modelli di
CapsNets, utilizzando il programma ultralytics biblioteca. L'esempio seguente mostra l'addestramento di un modello di YOLO11
sul dataset MNIST , un campo di gioco comune per testare il riconoscimento di caratteristiche gerarchiche.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
La ricerca sulle Reti di Capsule continua a influenzare lo sviluppo della sicurezza e dell'interpretabilità dell'IA. sicurezza e interpretabilità dell 'IA. Modellando esplicitamente le relazioni relazioni parte-intero, offrono un percorso verso un'IA più spiegabile rispetto alla natura di "scatola nera" di alcune reti profonde. alcune reti profonde. I progressi futuri potrebbero concentrarsi sull'integrazione di questi concetti nel rilevamento di oggetti 3D e sulla riduzione del costo computazionale degli algoritmi di routing, unendo potenzialmente l'efficienza di modelli come YOLO26 con la robustezza degli algoritmi spaziali. YOLO26 con la robusta comprensione spaziale delle capsule.