Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Reti Capsula (CapsNet)

Scopri le Reti Capsula (CapsNet): un'architettura di rete neurale rivoluzionaria che eccelle nelle gerarchie spaziali e nelle relazioni tra le feature.

Le Capsule Networks, spesso abbreviate in CapsNets, sono un tipo di architettura di rete neurale (NN) progettata per superare alcune delle principali limitazioni delle Reti Neurali Convoluzionali (CNN). Introdotte da Geoffrey Hinton e dal suo team, le CapsNet mirano a riconoscere meglio le relazioni gerarchiche tra le caratteristiche in un'immagine. A differenza dei neuroni in una CNN standard che emettono un singolo valore scalare, le "capsule" in una CapsNet emettono un vettore, consentendo loro di codificare informazioni più dettagliate sulle proprietà di un oggetto, come la sua posa (posizione, dimensione, orientamento), deformazione e texture. Questa struttura le rende intrinsecamente più robuste ai cambiamenti di punto di vista e orientamento.

Come funzionano le Capsule Networks?

L'innovazione principale alla base delle CapsNet è la loro capacità di preservare le gerarchie spaziali tra le caratteristiche. Mentre una CNN potrebbe riconoscere i componenti di un volto, come la bocca, il naso e gli occhi, non comprende esplicitamente le loro relazioni spaziali. Le CapsNet, invece, utilizzano gruppi di neuroni chiamati capsule per identificare queste parti e i loro orientamenti relativi. Ciò si ottiene attraverso un processo chiamato "routing dinamico", in cui le capsule di livello inferiore inviano il loro output alle capsule di livello superiore che meglio possono tenere conto delle loro scoperte. Questo approccio è fondamentalmente diverso dai livelli di pooling nelle CNN, che spesso scartano importanti informazioni spaziali. Il concetto originale è stato descritto in dettaglio nel documento Dynamic Routing Between Capsules.

CapsNets vs. Reti Neurali Convoluzionali

La distinzione principale tra CapsNet e CNN risiede nel modo in cui gestiscono le informazioni spaziali e l'astrazione.

  • Invarianza spaziale: Le CNN raggiungono l'invarianza spaziale attraverso i livelli di pooling, che possono portare a una perdita di dati di localizzazione precisi. Le CapsNet, al contrario, sono progettate per essere "equivarianti", il che significa che possono comprendere e preservare le informazioni sulla posa di un oggetto mentre si muove attraverso il fotogramma.
  • Efficienza dei dati: Grazie alla loro sofisticata struttura interna, le CapsNet possono spesso raggiungere un'elevata accuratezza con una quantità significativamente inferiore di dati di training rispetto ai modelli di deep learning (DL) affamati di dati.
  • Rappresentazione gerarchica: Le CapsNet costruiscono un albero di analisi esplicito delle entità visive, che consente loro di comprendere il tutto come una composizione delle sue parti. Questo è un modo più intuitivo di eseguire attività come il rilevamento di oggetti rispetto a quanto offerto dalle CNN standard.

Sebbene modelli come Ultralytics YOLO siano altamente ottimizzati per velocità e precisione in attività pratiche di computer vision (CV), le CapsNet rappresentano una filosofia architettonica alternativa incentrata sul miglioramento della comprensione fondamentale delle scene visive. Puoi esplorare i confronti tra diversi modelli di rilevamento oggetti per comprendere il panorama attuale.

Applicazioni nel mondo reale

Sebbene le CapsNet siano ancora principalmente un'area di ricerca attiva e meno comunemente implementate rispetto a modelli consolidati come YOLO11, hanno dimostrato di essere promettenti in diversi ambiti:

  1. Riconoscimento dei caratteri: CapsNets ha ottenuto risultati all'avanguardia sul set di dati MNIST di cifre scritte a mano, dimostrando la sua capacità di gestire efficacemente le variazioni di orientamento e stile, superando gli approcci tradizionali di classificazione delle immagini in alcuni benchmark.
  2. Analisi di immagini mediche: La loro capacità di comprendere le configurazioni spaziali le rende adatte all'analisi di scansioni mediche. Ad esempio, la ricerca ha esplorato l'uso di CapsNet per attività come la segmentazione di tumori cerebrali, dove l'identificazione della forma e della posizione precisa delle anomalie è fondamentale. Questo rientra nel più ampio campo dell'analisi di immagini mediche.

Ulteriori potenziali applicazioni includono il miglioramento del rilevamento di oggetti, in particolare per scene affollate, il miglioramento della comprensione delle scene nella robotica e il contributo a sistemi di percezione più robusti per i veicoli autonomi. Sebbene le esigenze computazionali rimangano una sfida, la ricerca in corso mira a ottimizzare l'efficienza di CapsNet per applicazioni di machine learning (ML) più ampie e la potenziale integrazione in framework come PyTorch o TensorFlow.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti