Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Reti Capsula (CapsNet)

Scopri le Reti Capsula (CapsNet): un'architettura di rete neurale rivoluzionaria che eccelle nelle gerarchie spaziali e nelle relazioni tra le feature.

Le reti a capsula (CapsNets) rappresentano una sofisticata evoluzione nel campo del dell 'apprendimento profondo (DL), progettata per affrontare limitazioni riscontrate nelle tradizionali reti neurali convoluzionali (CNN). Introdotta per la prima volta dal famoso ricercatore Geoffrey Hinton e dai suoi colleghi, questa architettura organizza i neuroni in gruppi noti come "capsule". A differenza dei neuroni standard che emettono un singolo valore di attivazione scalare, una capsula emette un vettore. L'orientamento e la lunghezza del vettore consentono alla rete di codificare informazioni più ricche su un oggetto, come la sua posizione precisa, le dimensioni, l'orientamento e la consistenza. Questa capacità permette al modello di comprendere meglio le relazioni gerarchiche tra le caratteristiche, essenzialmente di "grafica inversa" per decostruire una scena visiva.

Comprendere il meccanismo centrale

La caratteristica distintiva di una CapsNet è la capacità di preservare le relazioni spaziali tra le diverse parti di un oggetto. di un oggetto. In un flusso di lavoro standard visione computerizzata (CV) che utilizza le CNN, i livelli spesso utilizzano operazioni di pooling per ridurre la dimensionalità, che in genere scartano dati spaziali precisi per ottenere l'invarianza. invarianza. Tuttavia, le reti CapsNets mirano all'"equivarianza", ovvero se un oggetto si muove o ruota nell'immagine, il vettore della capsula si muove o ruota. nell'immagine, la rappresentazione vettoriale della capsula cambia proporzionalmente, invece di diventare irriconoscibile.

Questo si ottiene attraverso un processo chiamato "instradamento dinamico" o "instradamento per accordo". Invece di invece di inoltrare semplicemente i segnali a tutti i neuroni dello strato successivo, le capsule di livello inferiore inviano le loro uscite alle capsule di livello superiore che "concordano" con la loro previsione. di livello superiore che sono "d'accordo" con la loro previsione. Per esempio, una capsula che rileva un naso segnalerà con forza a una capsula se l'orientamento spaziale è in linea, rafforzando la comprensione strutturale del processo di estrazione delle caratteristiche. processo di estrazione delle caratteristiche. Questo concetto è stato concetto è stato illustrato nel documento di ricerca Instradamento dinamico tra capsule.

Differenziare le reti Caps dalle CNN

Sebbene entrambe le architetture siano fondamentali per il apprendimento automatico (ML), esse divergono significativamente nel modo in cui elaborano i dati visivi:

  • Uscite scalari e vettoriali: I neuroni CNN forniscono un valore scalare che indica la presenza di una caratteristica. Le reti CapsNet utilizzano uscite vettoriali per rappresentare l'esistenza di un'entità e le sue proprietà (posa, deformazione, tonalità).
  • Pooling vs. Routing: Le CNN utilizzano strati di raggruppamento (come il max pooling) per ottenere l'invarianza traslazionale, spesso perdendo i dettagli della posizione. Le reti CapsNet utilizzano il routing dinamico per gerarchie spaziali, rendendole potenzialmente più efficaci per compiti come la stima della posa. la stima della posa.
  • Efficienza dei dati: Poiché le reti CapsNets codificano internamente le variazioni del punto di vista, possono richiedere meno dati di dati di addestramento per generalizzare rispetto ai modelli modelli tradizionali, che spesso necessitano di un dati per apprendere la rotazione o le trasformazioni affini. trasformazioni affini o di rotazione.

Applicazioni nel mondo reale

Sebbene le reti CapsNet siano computazionalmente intensive e meno adottate rispetto ad architetture ottimizzate come le reti CapsNet. YOLO11hanno dimostrato di essere promettenti in specifici domini ad alta domini ad alto rischio:

  1. Analisi di immagini mediche: La capacità di gestire gerarchie spaziali rende le reti CapsNet utili per l'analisi di immagini mediche. analisi delle immagini mediche. Ad esempio, ricercatori le hanno applicate alla segmentazione dei tumori cerebrali, in cui distinguere la forma e l'orientamento forma e l'orientamento precisi di un tumore dal tessuto circostante è fondamentale per una diagnosi accurata.
  2. Riconoscimento delle cifre scritte a mano: CapsNets ha ottenuto prestazioni allo stato dell'arte sul dataset MNIST , in particolare negli scenari che che prevedono la sovrapposizione di cifre, dove i modelli modelli di classificazione delle immagini potrebbero di classificazione delle immagini potrebbero faticare a distinguere le caratteristiche.

Attuazione pratica

Sebbene le reti CapsNet offrano vantaggi teorici, i moderni standard di settore spesso privilegiano modelli altamente ottimizzati basati su CNN o modelli basati su trasformatori per la velocità. Tuttavia, è possibile sperimentare compiti di classificazione - il principale parametro di riferimento per le CapsNet - utilizzando i modelli di CapsNets, utilizzando il programma ultralytics biblioteca. L'esempio seguente mostra l'addestramento di un modello di YOLO11 sul dataset MNIST , un campo di gioco comune per testare il riconoscimento di caratteristiche gerarchiche.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Prospettive future

La ricerca sulle Reti di Capsule continua a influenzare lo sviluppo della sicurezza e dell'interpretabilità dell'IA. sicurezza e interpretabilità dell 'IA. Modellando esplicitamente le relazioni relazioni parte-intero, offrono un percorso verso un'IA più spiegabile rispetto alla natura di "scatola nera" di alcune reti profonde. alcune reti profonde. I progressi futuri potrebbero concentrarsi sull'integrazione di questi concetti nel rilevamento di oggetti 3D e sulla riduzione del costo computazionale degli algoritmi di routing, unendo potenzialmente l'efficienza di modelli come YOLO26 con la robustezza degli algoritmi spaziali. YOLO26 con la robusta comprensione spaziale delle capsule.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora