Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Mémoire à long terme (LSTM)

Découvrez comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontant les limitations des RNN et alimentant les tâches d'IA comme le NLP et la prévision.

La mémoire à court terme longue (LSTM) est un type spécialisé d' architecture de réseau neuronal récurrent (RNN) capable d'apprendre la dépendance de l'ordre dans les problèmes de prédiction de séquences. Contrairement aux réseaux neuronaux feedforward standard , les LSTM disposent de connexions de rétroaction qui leur permettent de traiter non seulement des points de données uniques (tels que des images), mais aussi des séquences entières de données (telles que la parole ou la vidéo). Cette capacité les rend particulièrement adaptés aux tâches où le contexte des entrées précédentes est crucial pour comprendre les données actuelles, remédiant ainsi aux limites de la « mémoire à court terme » des RNN traditionnels.

Le problème avec les RNN standard

Pour comprendre l'innovation des LSTM, il est utile d'examiner les défis auxquels sont confrontés les réseaux neuronaux récurrents de base. Bien que les RNN soient conçus pour traiter des informations séquentielles, ils ont du mal à gérer les longues séquences de données en raison du problème de la disparition du gradient. À mesure que le réseau rétropropagation du réseau dans le temps, les gradients (valeurs utilisées pour mettre à jour les poids du réseau) peuvent devenir exponentiellement plus petits, empêchant ainsi le réseau d'apprendre les connexions entre des événements éloignés. Cela signifie qu'un RNN standard peut se souvenir d'un mot de la phrase précédente, mais oublier le contexte établi trois paragraphes plus tôt. Les LSTM ont été explicitement conçus pour résoudre ce problème en introduisant une structure interne plus complexe capable de maintenir une fenêtre contextuelle sur des périodes beaucoup plus longues.

Comment fonctionnent les LSTM

Le concept central derrière un LSTM est l'état de cellule, souvent décrit comme un tapis roulant qui traverse toute la chaîne du réseau. Cet état permet aux informations de circuler sans être modifiées, préservant ainsi les dépendances à long terme. Le réseau décide de ce qu'il faut stocker, mettre à jour ou supprimer de cet état de cellule à l'aide de structures appelées portes.

  • Forget Gate : ce mécanisme détermine quelles informations ne sont plus pertinentes et doivent être supprimées de l'état de la cellule. Par exemple, si un modèle linguistique rencontre un nouveau sujet, il peut « oublier » le genre du sujet précédent.
  • Porte d'entrée : cette porte détermine quelles nouvelles informations sont suffisamment importantes pour être stockées dans l' état de la cellule.
  • Porte de sortie : enfin, cette porte contrôle quelles parties de l'état interne doivent être transmises à l' état caché suivant et utilisées pour la prédiction immédiate.

En régulant ce flux d'informations, les LSTM peuvent combler des décalages temporels de plus de 1 000 étapes, surpassant de loin les RNN classiques dans les tâches nécessitant une analyse de séries chronologiques.

Applications concrètes

Les LSTM ont été à l'origine de nombreuses avancées majeures dans le domaine de l' apprentissage profond au cours de la dernière décennie. Voici deux exemples marquants de leur application :

  • Modélisation séquence-à-séquence dans la traduction : les LSTM sont fondamentales pour les systèmes de traduction automatique. Dans cette architecture, un LSTM (l'encodeur) traite une phrase d'entrée dans une langue (par exemple, English) et la compresse en un vecteur de contexte. Un deuxième LSTM (le décodeur) utilise ensuite ce vecteur pour générer la traduction dans une autre langue (par exemple, le français). Cette capacité à traiter des séquences d'entrée et de sortie de différentes longueurs est essentielle pour le traitement du langage naturel (NLP).
  • Analyse vidéoet reconnaissance d'activité : si les réseaux neuronaux convolutifs (CNN) tels que ResNet-50 excellent dans l'identification d'objets dans des images statiques, ils manquent toutefois de perception temporelle. En combinant les CNN avec les LSTM, les systèmes d'IA peuvent effectuer la reconnaissance d'actions dans des flux vidéo . Le CNN extrait les caractéristiques de chaque image, et le LSTM analyse la séquence de ces caractéristiques pour déterminer si une personne marche, court ou tombe.

Intégration des LSTM à la vision par ordinateur

Dans la vision par ordinateur moderne, les LSTM sont souvent utilisés en association avec de puissants extracteurs de caractéristiques. Par exemple, vous pouvez utiliser un YOLO pour detect dans des images individuelles et un LSTM pour track trajectoires ou prédire leurs mouvements futurs.

Voici un exemple conceptuel utilisant torch définir un LSTM simple capable de traiter une séquence de vecteurs de caractéristiques extraits d'un flux vidéo :

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Concepts connexes et distinctions

Il est utile de distinguer les LSTM des autres architectures de traitement des séquences :

  • LSTM vs GRU : L' unité récurrente à porte (GRU) est une variante simplifiée du LSTM. Les GRU combinent les portes « forget » et « input » en une seule « porte de mise à jour » et fusionnent l'état de la cellule et l'état caché. Cela rend les GRU plus efficaces sur le plan informatique et plus rapides à entraîner, même si les LSTM peuvent encore les surpasser sur des ensembles de données plus volumineux et plus complexes.
  • LSTM vs Transformers : L' architecture Transformer, qui repose sur des mécanismes d'auto-attention plutôt que sur la récurrence, a largement supplanté les LSTM dans les tâches de TALN telles que celles effectuées par GPT-4. Les Transformers peuvent traiter des séquences entières en parallèle plutôt que séquentiellement, ce qui permet un apprentissage beaucoup plus rapide sur des ensembles de données massifs. Cependant, les LSTM restent pertinents dans les scénarios où les données sont limitées ou dans lesquels il existe des contraintes spécifiques en matière de séries chronologiques, où la surcharge des mécanismes d'attention n'est pas nécessaire.

Évolution et avenir

Alors que le mécanisme d'attention occupe le devant de la scène dans le domaine de l'IA générative, les LSTM restent un choix robuste pour les applications plus légères, en particulier dans les environnements d'IA de pointe où les ressources informatiques sont limitées. Les chercheurs continuent d'explorer des architectures hybrides qui combinent l'efficacité mémorielle des LSTM avec la puissance de représentation des systèmes modernes de détection d'objets.

Pour ceux qui cherchent à gérer des ensembles de données pour l'entraînement de modèles séquentiels ou des tâches de vision complexes, Ultralytics offre des outils complets pour l'annotation et la gestion des ensembles de données. De plus, la compréhension du fonctionnement des LSTM fournit une base solide pour appréhender les modèles temporels plus avancés utilisés dans les véhicules autonomes et la robotique.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant