Glossario

Memoria a breve termine (LSTM)

Scoprite come le reti LSTM (Long Short-Term Memory) eccellono nella gestione di dati sequenziali, superando i limiti delle RNN e alimentando compiti di intelligenza artificiale come l'NLP e le previsioni.

La memoria a breve termine (Long Short-Term Memory, LSTM) è un tipo specializzato di architettura di rete neurale ricorrente (RNN) progettata per apprendere e ricordare modelli su lunghe sequenze di dati. A differenza delle RNN standard, che faticano a gestire le dipendenze a lungo termine a causa del problema del gradiente che svanisce, le LSTM utilizzano un meccanismo di gating unico per regolare il flusso di informazioni. Ciò consente alla rete di trattenere selettivamente le informazioni importanti per periodi prolungati, scartando invece i dati irrilevanti, rendendola una pietra miliare del moderno deep learning, in particolare nell'elaborazione del linguaggio naturale (NLP). L'articolo fondamentale su LSTM di Hochreiter e Schmidhuber ha gettato le basi di questa potente tecnologia.

Come funzionano gli LSTM

La chiave della capacità di un LSTM è la sua struttura interna, che comprende uno "stato di cella" e diversi "gate". Lo stato della cella agisce come un nastro trasportatore, trasportando le informazioni rilevanti attraverso la sequenza. I gate - input, forget e output - sono reti neurali che controllano quali informazioni vengono aggiunte, rimosse o lette dallo stato della cella.

  • Porta di dimenticanza: Decide quali informazioni dello stato precedente della cella devono essere scartate.
  • Gate di ingresso: Determina quali nuove informazioni provenienti dall'ingresso corrente devono essere memorizzate nello stato della cella.
  • Gate di uscita: Controlla quali informazioni dallo stato della cella vengono utilizzate per generare l'uscita per il passo temporale corrente.

Questa struttura di gating consente alle LSTM di mantenere il contesto per molti intervalli di tempo, una caratteristica fondamentale per la comprensione di dati sequenziali come il testo o le serie temporali. Una visualizzazione dettagliata si trova in questo famoso post del blog Understanding LSTMs.

Applicazioni del mondo reale

Le LSTM sono state applicate con successo in numerosi domini che coinvolgono dati sequenziali.

  1. Traduzione automatica: Le LSTM possono elaborare una frase in una lingua parola per parola, costruire una rappresentazione interna (comprensione) e quindi generare una traduzione in un'altra lingua. Ciò richiede di ricordare il contesto dall'inizio della frase per produrre una traduzione coerente. Google Translate ha utilizzato storicamente modelli basati su LSTM per questo scopo, prima di passare alle architetture Transformer.
  2. Riconoscimento del parlato: Nelle applicazioni speech-to-text, le LSTM possono elaborare sequenze di caratteristiche audio per trascrivere le parole pronunciate. Il modello deve considerare i suoni precedenti per interpretare correttamente quello attuale, dimostrando la sua capacità di gestire le dipendenze temporali. Molti assistenti virtuali moderni si sono basati su questa tecnologia.

Confronto con altri modelli di sequenza

Le LSTM fanno parte di una famiglia più ampia di modelli per dati sequenziali.

  • Unità ricorrente gated (GRU): Una GRU è una versione semplificata di un LSTM. Combina le porte di dimenticanza e di ingresso in un'unica "porta di aggiornamento" e unisce lo stato della cella e lo stato nascosto. Questo rende le GRU più efficienti dal punto di vista computazionale e più veloci da addestrare, anche se in alcuni compiti possono essere leggermente meno espressive degli LSTM.
  • Modelli di Markov nascosti (HMM): Gli HMM sono modelli probabilistici meno complessi degli LSTM. Pur essendo utili per compiti di sequenza più semplici, non sono in grado di catturare le dipendenze complesse e a lungo raggio di cui sono capaci gli LSTM e altre reti neurali.
  • Transformer: L'architettura Transformer, che si basa su un meccanismo di autoattenzione, ha ampiamente superato gli LSTM come lo stato dell'arte per molti compiti NLP. A differenza dell'elaborazione sequenziale degli LSTM, i Transformer possono elaborare tutti gli elementi di una sequenza in parallelo, il che li rende molto efficienti su hardware moderni come le GPU e migliori nel catturare le dipendenze globali.

Implementazione e strumenti

Le LSTM possono essere facilmente implementate utilizzando i più diffusi framework di deep learning come PyTorch (si veda la documentazione sulle LSTM di PyTorch) e TensorFlow (si veda la documentazione sulle LSTM di TensorFlow). Sebbene Ultralytics si concentri principalmente su modelli di visione artificiale (CV) come Ultralytics YOLO per compiti come il rilevamento di oggetti e la segmentazione di istanze, la comprensione dei modelli di sequenza è preziosa, soprattutto perché la ricerca sta esplorando la possibilità di collegare NLP e CV per compiti come la comprensione di video o la sottotitolazione di immagini. È possibile approfondire i vari modelli e concetti di ML nella documentazione di Ultralytics. La gestione dell'addestramento e della distribuzione dei vari modelli può essere semplificata utilizzando piattaforme come Ultralytics HUB. Risorse come DeepLearning.AI offrono corsi che coprono i modelli di sequenza, compresi gli LSTM.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti