Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Mémoire à long terme (LSTM)

Découvrez comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontant les limitations des RNN et alimentant les tâches d'IA comme le NLP et la prévision.

La mémoire à long terme (LSTM) est une architecture spécialisée au sein de la famille plus large des réseaux neuronaux récurrents (RNN) conçue pour traiter des données séquentielles et capturer efficacement les dépendances à long terme. Contrairement aux réseaux feedforward qui traitent les entrées de manière isolée, les LSTM conservent une "mémoire" interne qui persiste dans le temps, qui persiste dans le temps, ce qui leur permet d'apprendre des modèles dans des séquences telles que le texte, l'audio et les données financières. Cette capacité permet de remédier à une limitation importante des RNN traditionnels connue sous le nom de "LSTM". Cette capacité permet de remédier à une limitation importante des RNN traditionnels, connue sous le nom de "problème du gradient qui s'évanouit". le problème du gradient qui s'évanouit, où le réseau le réseau a du mal à retenir les informations des étapes antérieures d'une longue séquence pendant l'apprentissage du modèle. l'apprentissage du modèle. En utilisant un mécanisme unique de contrôle, les LSTM peuvent se souvenir ou oublier des informations de manière sélective, ce qui en fait une technologie fondamentale dans l'histoire de l'apprentissage profond (DL). l 'apprentissage profond (DL).

Comment fonctionnent les LSTM

L'innovation principale d'une LSTM est son état cellulaire, souvent décrit comme un tapis roulant qui parcourt toute la chaîne du réseau avec seulement quelques interactions linéaires mineures. chaîne du réseau avec seulement des interactions linéaires mineures. Cette structure permet aux informations de circuler Cette structure permet à l'information de circuler le long de la chaîne sans changement, en préservant le contexte sur de longues séquences. La LSTM régule ce flux à l'aide de trois portes distinctes, qui sont typiquement composées de couches de réseaux neuronaux sigmoïdes et d'opérations de multiplication ponctuelle. des opérations de multiplication ponctuelle :

  • Porte de l'oubli : Détermine quelles informations de l'état précédent de la cellule ne sont plus pertinentes et doivent être éliminées. doivent être éliminées.
  • Porte d'entrée : Décide quelle nouvelle information provenant de l'étape d'entrée actuelle est suffisamment importante pour être stockée dans l'état de la cellule. être stockées dans l'état de la cellule.
  • Porte de sortie : Contrôle les parties de l'état de la cellule qui doivent être transmises à l'état caché suivant. à l'aide d'une activation activation tanh (tangente hyperbolique) pour pour échelonner les valeurs.

Cette conception sophistiquée permet aux LSTM de gérer des tâches où l'écart entre l'information pertinente et le point où elle est nécessaire est important, un concept visualisé dans la célèbre étude de Christopher Olah. est important, un concept visualisé dans le célèbre guide de Christopher Olah sur la de Christopher Olah pour comprendre les LSTM.

Applications concrètes

Les LSTM ont joué un rôle déterminant dans les progrès de l'intelligence artificielle (IA). l'intelligence artificielle (IA) dans divers secteurs d'activité. Leur capacité à comprendre les dynamiques temporelles les rend idéales pour :

  1. Traitement du langage naturel (NLP) : dans des tâches telles que la traduction automatique, les LSTMs peuvent ingérer un texte de la langue. la traduction automatique, les LSTM peuvent ingérer une une phrase dans une langue et générer une traduction dans une autre en conservant le contexte des mots apparaissant plus tôt dans la phrase. dans la phrase. De même, dans l'analyse l 'analyse des sentiments, le modèle peut comprendre comment un modificateur au début d'un paragraphe (par exemple, "pas") annule un mot à la fin (par exemple, "recommandé"), "recommandé").
  2. Analyse vidéo et reconnaissance d'actions : Alors que les modèles de vision artificielle (CV) comme YOLO11 excellent dans la détection d'objets dans des images statiques, les LSTMs peuvent traiter des séquences de caractéristiques d'images extraites par un réseau neuronal convolutif (CNN) pour reconnaître des actions dans le temps, telles que "courir" ou "faire un signe de la main". Cette combinaison permet de combler le fossé entre la détection spatiale et la compréhension et la compréhension temporelle de la vidéo.

Comparaison avec des architectures apparentées

Il est utile de distinguer les LSTM des techniques similaires de modélisation des séquences :

  • RNN vs. LSTM : Un RNN standard possède une structure répétitive simple (généralement une seule couche de tanh) mais ne parvient pas à apprendre les dépendances à long terme en raison de l'instabilité du gradient. mais ne parvient pas à apprendre les dépendances à longue portée en raison de l'instabilité du gradient. Les LSTM introduisent la structure multi-porte pour résoudre ce problème. résoudre ce problème.
  • GRU vs. LSTM : Le L'unité récurrente à portes (GRU) est une variante simplifiée de la LSTM. variante simplifiée de la LSTM qui fusionne les portes d'oubli et d'entrée en une seule porte de mise à jour. Les GRU sont sont plus efficaces sur le plan du calcul et ont souvent des performances comparables, ce qui en fait un choix populaire lorsque les ressources informatiques sont limitées. lorsque les ressources informatiques sont limitées.
  • Transformer vs. LSTM : la modernité Transformer, qui repose sur des mécanismes sur des mécanismes d'auto-attention, a largement supplanté les LSTM dans le domaine du NLP. Les transformateurs traitent des séquences entières en parallèle plutôt que de manière séquentielle, ce qui permet un apprentissage plus rapide sur les GPU et une meilleure gestion de l'information. plus rapide sur les GPU et une meilleure du contexte global.

Exemple de mise en œuvre

L'exemple suivant montre comment définir une couche LSTM standard à l'aide de la fonction PyTorch. Cet extrait initialise une couche et traite un lot factice de données séquentielles. un lot fictif de données séquentielles, un flux de travail courant dans l 'analyse de séries temporelles.

import torch
import torch.nn as nn

# Define an LSTM layer: input_dim=10, hidden_dim=20, num_layers=2
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Create dummy input: (batch_size=5, sequence_length=3, input_dim=10)
input_seq = torch.randn(5, 3, 10)

# Forward pass: Returns output and (hidden_state, cell_state)
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([5, 3, 20])

Autres lectures et ressources

Pour en savoir plus sur les LSTM, vous pouvez consulter l'article de recherche original de Hochreiter et Schmidhuber. par Hochreiter et Schmidhuber qui a introduit le concept . qui a introduit le concept. Pour ceux qui s'intéressent à la mise en œuvre pratique, la documentation officielle de PyTorch LSTM et TensorFlow Keras LSTM API fournissent des des guides complets. En outre, les cours de l'université de de l 'université de Stanford sur le NLP couvrent souvent les les fondements théoriques des modèles de séquence. Il est essentiel de comprendre ces composants pour maîtriser les systèmes d'IA complexes, des simples moteurs de synthèse vocale aux agents agents autonomes avancés.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant