Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Long Short-Term Memory (LSTM)

Scopri come le reti Long Short-Term Memory (LSTM) eccellono nella gestione dei dati sequenziali, superando i limiti delle RNN e alimentando task di IA come l'NLP e la previsione.

La memoria a lungo termine (LSTM) è un tipo specializzato di architettura di rete neurale ricorrente (RNN) progettata per apprendere e ricordare schemi su lunghe sequenze di dati. A differenza delle RNN standard, che hanno difficoltà con le dipendenze a lungo termine a causa del problema della scomparsa del gradiente, le LSTM utilizzano un meccanismo di gating unico per regolare il flusso di informazioni. Ciò consente alla rete di conservare selettivamente le informazioni importanti per periodi prolungati, scartando al contempo i dati irrilevanti, rendendola una pietra miliare del moderno deep learning, specialmente nell'elaborazione del linguaggio naturale (NLP). L'articolo fondamentale sulle LSTM di Hochreiter e Schmidhuber ha gettato le basi per questa potente tecnologia.

Come funzionano le LSTM

La chiave della capacità di una LSTM è la sua struttura interna, che include uno "stato della cella" e diversi "gate". Lo stato della cella funge da nastro trasportatore, trasportando informazioni rilevanti attraverso la sequenza. I gate - input, forget e output - sono reti neurali che controllano quali informazioni vengono aggiunte, rimosse o lette dallo stato della cella.

  • Forget Gate: Decide quali informazioni dallo stato della cella precedente devono essere scartate.
  • Input Gate: Determina quali nuove informazioni dall'input corrente devono essere memorizzate nello stato della cella.
  • Output Gate: Controlla quali informazioni dallo stato della cella vengono utilizzate per generare l'output per il time step corrente.

Questa struttura di gating consente alle LSTM di mantenere il contesto su molti intervalli di tempo, una caratteristica fondamentale per la comprensione di dati sequenziali come testo o serie temporali. Una visualizzazione dettagliata è disponibile in questo popolare articolo del blog Understanding LSTMs.

Applicazioni nel mondo reale

Le LSTM sono state applicate con successo in numerosi ambiti che coinvolgono dati sequenziali.

  1. Traduzione automatica: Le LSTM possono elaborare una frase in una lingua parola per parola, costruire una rappresentazione interna (comprensione) e quindi generare una traduzione in un'altra lingua. Ciò richiede di ricordare il contesto dall'inizio della frase per produrre una traduzione coerente. Google Translate utilizzava storicamente modelli basati su LSTM per questo scopo prima di passare alle architetture Transformer.
  2. Riconoscimento vocale: Nelle applicazioni speech-to-text, le LSTM possono elaborare sequenze di caratteristiche audio per trascrivere le parole pronunciate. Il modello deve considerare i suoni precedenti per interpretare correttamente quello attuale, dimostrando la sua capacità di gestire le dipendenze temporali. Molti assistenti virtuali moderni si sono affidati a questa tecnologia.

Confronto con altri modelli di sequenza

Le LSTM fanno parte di una famiglia più ampia di modelli per dati sequenziali.

  • Gated Recurrent Unit (GRU): Una GRU è una versione semplificata di una LSTM. Combina i gate di dimenticanza e di input in un unico "gate di aggiornamento" e unisce lo stato della cella e lo stato nascosto. Questo rende le GRU computazionalmente più efficienti e più veloci da addestrare, anche se possono essere leggermente meno espressive delle LSTM in alcune attività.
  • Modelli di Markov nascosti (HMM): Gli HMM sono modelli probabilistici meno complessi degli LSTM. Sebbene utili per attività di sequenza più semplici, non possono catturare le dipendenze complesse e a lungo raggio che gli LSTM e altre reti neurali possono.
  • Transformer: L'architettura Transformer, che si basa su un meccanismo di auto-attenzione, ha ampiamente superato le LSTM come stato dell'arte per molte attività di NLP. A differenza dell'elaborazione sequenziale delle LSTM, i Transformer possono elaborare tutti gli elementi di una sequenza in parallelo, rendendoli altamente efficienti su hardware moderni come le GPU e migliori nell'acquisizione di dipendenze globali.

Implementazione e strumenti

Le LSTM possono essere facilmente implementate utilizzando framework di deep learning popolari come PyTorch (vedere la documentazione di PyTorch LSTM) e TensorFlow (vedere la documentazione di TensorFlow LSTM). Mentre Ultralytics si concentra principalmente su modelli di Computer Vision (CV) come Ultralytics YOLO per attività come il rilevamento di oggetti e la segmentazione di istanze, comprendere i modelli di sequenza è prezioso, soprattutto perché la ricerca esplora il collegamento tra NLP e CV per attività come la comprensione di video o la didascalia di immagini. Puoi esplorare ulteriormente vari modelli e concetti di ML nella documentazione di Ultralytics. La gestione del training e dell'implementazione di vari modelli può essere semplificata utilizzando piattaforme come Ultralytics HUB. Risorse come DeepLearning.AI offrono corsi che trattano i modelli di sequenza, comprese le LSTM.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti