Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Long Short-Term Memory (LSTM)

Esplora le reti Long Short-Term Memory (LSTM). Scopri come le LSTM risolvono il problema del gradiente evanescente nelle RNN per le serie temporali, l'NLP e l'analisi video.

La Long Short-Term Memory (LSTM) è un tipo specializzato di architettura di recurrent neural network (RNN) in grado di apprendere la dipendenza dall'ordine nei problemi di previsione di sequenze. A differenza delle normali reti neurali feedforward, le LSTM dispongono di connessioni di feedback che permettono loro di elaborare non solo singoli punti dati (come le immagini), ma intere sequenze di dati (come parlato o video). Questa capacità le rende particolarmente adatte a compiti in cui il contesto proveniente da input precedenti è cruciale per comprendere i dati attuali, superando i limiti di "memoria a breve termine" delle RNN tradizionali.

Link to this sectionIl problema delle RNN standard#

Per comprendere l'innovazione delle LSTM, è utile esaminare le sfide affrontate dalle recurrent neural networks di base. Sebbene le RNN siano progettate per gestire informazioni sequenziali, incontrano difficoltà con sequenze di dati lunghe a causa del problema del vanishing gradient. Mentre la rete esegue la backpropagation nel tempo, i gradienti – i valori utilizzati per aggiornare i pesi della rete – possono diventare esponenzialmente più piccoli, impedendo di fatto alla rete di apprendere connessioni tra eventi distanti. Ciò significa che una RNN standard potrebbe ricordare una parola della frase precedente ma dimenticare il contesto stabilito tre paragrafi prima. Le LSTM sono state progettate esplicitamente per risolvere questo problema introducendo una struttura interna più complessa in grado di mantenere una context window per periodi molto più lunghi.

Link to this sectionCome funzionano le LSTM#

Il concetto fondamentale alla base di una LSTM è lo stato della cella, spesso descritto come un nastro trasportatore che attraversa l'intera catena della rete. Questo stato consente alle informazioni di fluire lungo di esso senza subire modifiche, preservando le dipendenze a lungo termine. La rete prende decisioni su cosa memorizzare, aggiornare o eliminare da questo stato della cella utilizzando strutture chiamate gate (porte).

  • Forget Gate (Porta di dimenticanza): Questo meccanismo decide quali informazioni non sono più rilevanti e dovrebbero essere rimosse dallo stato della cella. Ad esempio, se un modello linguistico incontra un nuovo soggetto, potrebbe "dimenticare" il genere del soggetto precedente.
  • Input Gate (Porta di ingresso): Questo gate determina quali nuove informazioni sono abbastanza significative da essere memorizzate nello stato della cella.
  • Output Gate (Porta di uscita): Infine, questo gate controlla quali parti dello stato interno debbano essere trasmesse allo stato nascosto successivo e utilizzate per la previsione immediata.

Regolando questo flusso di informazioni, le LSTM possono colmare ritardi temporali di oltre 1.000 passaggi, superando di gran lunga le RNN convenzionali in compiti che richiedono time series analysis.

Link to this sectionApplicazioni nel mondo reale#

Le LSTM hanno alimentato molte delle principali scoperte nel deep learning nell'ultimo decennio. Ecco due esempi importanti della loro applicazione:

  • Modellazione sequenza-sequenza nella traduzione: Le LSTM sono fondamentali per i sistemi di machine translation. In questa architettura, una LSTM (l'encoder) elabora una frase di input in una lingua (es. inglese) e la comprime in un vettore di contesto. Una seconda LSTM (il decoder) utilizza quindi questo vettore per generare la traduzione in un'altra lingua (es. francese). Questa capacità di gestire sequenze di input e output di lunghezze diverse è fondamentale per il natural language processing (NLP).
  • Analisi video e riconoscimento delle attività: Sebbene le Convolutional Neural Networks (CNN) come ResNet-50 eccellano nell'identificazione di oggetti in immagini statiche, mancano di una percezione temporale. Combinando le CNN con le LSTM, i sistemi di IA possono eseguire il action recognition in flussi video. La CNN estrae le caratteristiche da ogni fotogramma e la LSTM analizza la sequenza di tali caratteristiche per determinare se una persona sta camminando, correndo o cadendo.

Link to this sectionIntegrazione delle LSTM con la Computer Vision#

Nella moderna computer vision, le LSTM vengono spesso utilizzate insieme a potenti estrattori di caratteristiche. Ad esempio, potresti utilizzare un modello YOLO per rilevare oggetti in singoli fotogrammi e una LSTM per tracciarne le traiettorie o prevederne il movimento futuro.

Ecco un esempio concettuale che utilizza torch per definire una semplice LSTM in grado di elaborare una sequenza di vettori di caratteristiche estratti da un flusso video:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Link to this sectionConcetti correlati e distinzioni#

È utile distinguere le LSTM da altre architetture di elaborazione di sequenze:

  • LSTM vs. GRU: La Gated Recurrent Unit (GRU) è una variante semplificata della LSTM. Le GRU combinano le porte di dimenticanza e di ingresso in un unico "update gate" e uniscono lo stato della cella e lo stato nascosto. Questo rende le GRU computazionalmente più efficienti e più veloci da addestrare, sebbene le LSTM possano comunque superarle su set di dati più ampi e complessi.
  • LSTM vs. Transformers: L'architettura Transformer, che si basa su meccanismi di self-attention piuttosto che sulla ricorrenza, ha ampiamente sostituito le LSTM in compiti di NLP come quelli eseguiti da GPT-4. I Transformer possono elaborare intere sequenze in parallelo anziché in modo sequenziale, consentendo un addestramento molto più veloce su set di dati massivi. Tuttavia, le LSTM rimangono rilevanti in scenari con dati limitati o specifici vincoli di serie temporali in cui il sovraccarico dei meccanismi di attenzione non è necessario.

Link to this sectionEvoluzione e futuro#

Sebbene il attention mechanism abbia assunto un ruolo centrale nella generative AI, le LSTM continuano a essere una scelta solida per applicazioni più leggere, in particolare in ambienti di edge AI dove le risorse computazionali sono limitate. I ricercatori continuano a esplorare architetture ibride che combinano l'efficienza della memoria delle LSTM con la potenza rappresentativa dei moderni sistemi di object detection.

Per chi desidera gestire set di dati per l'addestramento di modelli di sequenza o compiti di visione complessi, la Ultralytics Platform offre strumenti completi per l'annotazione e la gestione dei set di dati. Inoltre, comprendere il funzionamento delle LSTM fornisce una solida base per cogliere modelli temporali più avanzati utilizzati in autonomous vehicles e robotica.

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.

Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.

Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning