Glossario

Reti di capsule (CapsNet)

Scoprite le reti a capsula (CapsNets): Un'architettura di rete neurale innovativa che eccelle nelle gerarchie spaziali e nelle relazioni tra le caratteristiche.

Le reti a capsula, spesso abbreviate in CapsNets, sono un tipo di architettura di rete neurale (NN) progettata per superare alcuni dei limiti principali delle reti neurali convoluzionali (CNN). Introdotte da Geoffrey Hinton e dal suo team, le CapsNet mirano a riconoscere meglio le relazioni gerarchiche tra le caratteristiche di un'immagine. A differenza dei neuroni di una CNN standard, che emettono un singolo valore scalare, le "capsule" di una CapsNet emettono un vettore, consentendo loro di codificare informazioni più dettagliate sulle proprietà di un oggetto, come la posa (posizione, dimensione, orientamento), la deformazione e la texture. Questa struttura li rende intrinsecamente più robusti ai cambiamenti di punto di vista e di orientamento.

Come funzionano le reti di capsule?

L'innovazione principale delle reti CapsNet è la capacità di preservare le gerarchie spaziali tra le caratteristiche. Mentre una CNN può riconoscere i componenti di un volto, come la bocca, il naso e gli occhi, non comprende esplicitamente le loro relazioni spaziali. Le reti CapsNets, invece, utilizzano gruppi di neuroni chiamati capsule per identificare queste parti e i loro orientamenti relativi. Ciò avviene attraverso un processo chiamato "instradamento dinamico", in cui le capsule di livello inferiore inviano i loro risultati a capsule di livello superiore che possono spiegare al meglio le loro scoperte. Questo approccio è fondamentalmente diverso dagli strati di aggregazione delle CNN, che spesso scartano importanti informazioni spaziali. Il concetto originale è stato descritto nel documento Dynamic Routing Between Capsules.

Reti neurali convoluzionali vs. Reti neurali convoluzionali

La principale distinzione tra le reti CapsNet e le CNN risiede nel modo in cui gestiscono le informazioni spaziali e l'astrazione.

  • Invarianza spaziale: Le CNN ottengono l'invarianza spaziale attraverso il raggruppamento degli strati, che può portare alla perdita di dati precisi sulla posizione. Le reti CapsNet, al contrario, sono progettate per essere "equivarianti", ossia in grado di comprendere e preservare le informazioni sulla posa di un oggetto mentre si muove nell'inquadratura.
  • Efficienza dei dati: Grazie alla loro sofisticata struttura interna, le reti CapsNet possono spesso raggiungere un'elevata accuratezza con una quantità di dati di addestramento significativamente inferiore rispetto ai modelli di deep learning (DL) che necessitano di dati.
  • Rappresentazione gerarchica: Le reti CapsNet costruiscono un albero di analisi esplicito delle entità visive, che consente loro di comprendere l'insieme come una composizione delle sue parti. Si tratta di un modo più intuitivo di eseguire compiti come il rilevamento di oggetti rispetto a quello offerto dalle CNN standard.

Mentre modelli come Ultralytics YOLO sono altamente ottimizzati per la velocità e l'accuratezza nelle attività pratiche di visione artificiale (CV), CapsNets rappresenta una filosofia architettonica alternativa incentrata sul miglioramento della comprensione fondamentale delle scene visive. È possibile esplorare i confronti tra i diversi modelli di rilevamento degli oggetti per comprendere il panorama attuale.

Applicazioni del mondo reale

Sebbene le CapsNet siano ancora un'area di ricerca attiva e meno comunemente impiegate rispetto a modelli consolidati come YOLO11, si sono dimostrate promettenti in diversi ambiti:

  1. Riconoscimento dei caratteri: Le reti CapsNet hanno ottenuto risultati all'avanguardia sul dataset MNIST di cifre scritte a mano, dimostrando la loro capacità di gestire efficacemente le variazioni di orientamento e stile, superando in alcuni benchmark gli approcci tradizionali di classificazione delle immagini.
  2. Analisi delle immagini mediche: La loro capacità di comprendere le configurazioni spaziali le rende adatte all'analisi di scansioni mediche. Ad esempio, la ricerca ha esplorato l'uso delle reti CapsNet per compiti come la segmentazione dei tumori cerebrali, dove l'identificazione della forma e della posizione precisa delle anomalie è fondamentale. Questo rientra nel campo più ampio dell'analisi delle immagini mediche.

Altre potenziali applicazioni includono il miglioramento del rilevamento degli oggetti, in particolare per le scene ingombre, il miglioramento della comprensione della scena nella robotica e il contributo a sistemi di percezione più robusti per i veicoli autonomi. Sebbene i requisiti computazionali rimangano una sfida, la ricerca in corso mira a ottimizzare l'efficienza di CapsNet per applicazioni di machine learning (ML) più ampie e per la potenziale integrazione in framework come PyTorch o TensorFlow.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti