Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Visione Mamba

Scopri Vision Mamba, un'alternativa a complessità lineare ai Transformers. Scopri come i modelli di spazio di stato (SSM) migliorano l'efficienza della visione artificiale ad alta risoluzione.

Vision Mamba rappresenta un cambiamento significativo nelle architetture di deep learning per la visione artificiale, allontanandosi dal predominio dei meccanismi basati sull'attenzione che si trovano nei Transformers. Si tratta di un adattamento dell'architettura Mamba, originariamente progettata per una modellazione efficiente delle sequenze nell'elaborazione del linguaggio naturale, su misura specificamente per compiti visivi. Sfruttando i modelli di spazio di stato (SSM), Vision Mamba offre un'alternativa lineare alla complessità quadratica dei tradizionali livelli di auto-attenzione. Ciò gli consente di elaborare immagini ad alta risoluzione in modo più efficiente, rendendolo particolarmente prezioso per applicazioni in cui le risorse computazionali sono limitate o in cui è necessario catturare dipendenze a lungo raggio nei dati visivi senza il pesante ingombro di memoria tipico dei Vision Transformers (ViT).

Come funziona Vision Mamba

Il concetto alla base di Vision Mamba è quello della scansione selettiva dei dati. Letradizionali reti neurali convoluzionali (CNN) elaborano le immagini utilizzando finestre scorrevoli locali, eccellenti per rilevare texture e bordi, ma poco efficaci nel contesto globale. Al contrario, i trasformatori utilizzano l'attenzione globale per mettere in relazione ogni pixel (o patch) con tutti gli altri pixel, fornendo un contesto eccellente ma diventando computazionalmente costosi all'aumentare della risoluzione dell'immagine. Vision Mamba colma questa lacuna appiattendo le immagini in sequenze ed elaborandole utilizzando spazi di stato selettivi. Ciò consente al modello di comprimere le informazioni visive in uno stato di dimensioni fisse, conservando i dettagli rilevanti su lunghe distanze nella sequenza di immagini ed eliminando il rumore irrilevante.

L'architettura prevede tipicamente un meccanismo di scansione bidirezionale. Poiché le immagini sono strutture 2D e non intrinsecamente sequenziali come il testo, Vision Mamba esegue la scansione dei patch dell'immagine in avanti e all'indietro (e talvolta con percorsi variabili) per garantire che le relazioni spaziali siano comprese indipendentemente dall'ordine di scansione. Questo approccio consente al modello di ottenere campi recettivi globali simili a quelli dei Transformers, ma con velocità di inferenza più elevate e un minore utilizzo di memoria, spesso rivaleggiando con i risultati all'avanguardia su benchmark come ImageNet.

Applicazioni nel mondo reale

L'efficienza di Vision Mamba lo rende particolarmente indicato per ambienti con risorse limitate e attività ad alta risoluzione.

  • Analisi di immagini mediche: in campi come la radiologia, l'analisi di scansioni MRI o TC ad alta risoluzione richiede il rilevamento di anomalie sottili che possono essere spazialmente distanti all'interno di un'immagine di grandi dimensioni. Vision Mamba è in grado di elaborare questi file di analisi di immagini mediche di grandi dimensioni in modo efficace senza i colli di bottiglia di memoria che spesso affliggono i Transformers standard, aiutando i medici a identificare tumori o fratture con elevata precisione.
  • Navigazione autonoma su dispositivi edge: le auto a guida autonoma e i droni si affidano all' edge computing per elaborare i feed video in tempo reale. Il ridimensionamento lineare di Vision Mamba consente a questi sistemi di gestire input video ad alta frequenza di fotogrammi per il rilevamento di oggetti e la segmentazione semantica in modo più efficiente rispetto ai modelli Transformer pesanti, garantendo tempi di reazione più rapidi per le decisioni critiche per la sicurezza.

Vision Mamba contro Vision Transformers (ViT)

Sebbene entrambe le architetture mirino a catturare il contesto globale, differiscono fondamentalmente nel funzionamento.

  • Vision Transformer (ViT): Si basa sul meccanismo di attenzione, che calcola la relazione tra ogni coppia di patch di immagini. Ciò comporta una complessità quadratica ($O(N^2)$), il che significa che raddoppiando le dimensioni dell'immagine si quadruplica il costo computazionale.
  • Vision Mamba: utilizza modelli di spazio di stato (SSM) per elaborare i token visivi in modo lineare ($O(N)$). Mantiene uno stato di funzionamento che si aggiorna man mano che vede nuovi patch, consentendogli di scalare molto meglio con risoluzioni più elevate mantenendo una precisione comparabile.

Esempio: flusso di lavoro efficiente per l'inferenza

Sebbene Vision Mamba sia un'architettura specifica, i suoi principi di efficienza sono in linea con gli obiettivi dei moderni modelli in tempo reale come Ultralytics YOLO26Gli utenti che cercano attività di visione ottimizzate possono sfruttare il Piattaforma Ultralytics per la formazione e l' implementazione. Di seguito è riportato un esempio che utilizza il ultralytics pacchetto per eseguire l'inferenza, dimostrando la facilità d'uso di modelli di visione altamente ottimizzati.

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Vantaggi principali e prospettive future

L'introduzione di architetture basate su Mamba nella visione artificiale segna un passo avanti verso un'intelligenza artificiale più attenta all'hardware. Riducendo il sovraccarico computazionale associato all'attenzione globale, i ricercatori stanno aprendo le porte all'implementazione di agenti di intelligenza artificiale avanzati su dispositivi più piccoli.

Ricerche recenti, come l'articolo VMamba e gli sviluppi nell' apprendimento profondo efficiente, evidenziano il potenziale di questi modelli di sostituire le strutture tradizionali in compiti che vanno dalla comprensione dei video al rilevamento di oggetti 3D. Mentre la comunità continua a perfezionare le strategie di scansione e l'integrazione con i livelli convoluzionali, Vision Mamba è destinato a diventare un componente standard nel toolbox dell'apprendimento profondo insieme alle CNN e ai Transformer.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora