Glossaire

Mémoire à long terme (LSTM)

Découvrez comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontent les limites des RNN et alimentent des tâches d'IA telles que la PNL et les prévisions.

La mémoire à long terme (LSTM) est un type spécialisé d'architecture de réseau neuronal récurrent (RNN) conçu pour apprendre et mémoriser des modèles sur de longues séquences de données. Contrairement aux RNN standard, qui ont du mal à gérer les dépendances à long terme en raison du problème du gradient qui s'évanouit, les LSTM utilisent un mécanisme unique pour réguler le flux d'informations. Cela permet au réseau de conserver sélectivement les informations importantes pendant de longues périodes tout en éliminant les données non pertinentes, ce qui en fait la pierre angulaire de l'apprentissage profond moderne, en particulier dans le domaine du traitement du langage naturel (NLP). L'article fondateur sur les LSTM de Hochreiter et Schmidhuber a jeté les bases de cette puissante technologie.

Fonctionnement des LSTM

La clé de la capacité d'une LSTM est sa structure interne, qui comprend un "état cellulaire" et plusieurs "portes". L'état de la cellule agit comme un tapis roulant, transportant les informations pertinentes à travers la séquence. Les portes - entrée, oubli et sortie - sont des réseaux neuronaux qui contrôlent les informations qui sont ajoutées, retirées ou lues dans l'état de la cellule.

  • Forget Gate : Décide quelles informations de l'état précédent de la cellule doivent être éliminées.
  • Porte d'entrée : Détermine quelle nouvelle information provenant de l'entrée actuelle doit être stockée dans l'état de la cellule.
  • Output Gate (porte de sortie) : Contrôle les informations de l'état de la cellule qui sont utilisées pour générer la sortie pour le pas de temps en cours.

Cette structure permet aux LSTM de maintenir le contexte sur de nombreux pas de temps, une caractéristique essentielle pour comprendre les données séquentielles telles que les textes ou les séries temporelles. Une visualisation détaillée est disponible dans cet article du blog Understanding LSTMs (Comprendre les LSTM).

Applications dans le monde réel

Les LSTM ont été appliquées avec succès dans de nombreux domaines impliquant des données séquentielles.

  1. Traduction automatique: Les LSTM peuvent traiter une phrase dans une langue mot à mot, construire une représentation interne (compréhension), puis générer une traduction dans une autre langue. Pour cela, il faut se souvenir du contexte depuis le début de la phrase afin de produire une traduction cohérente. Google Translate a toujours utilisé des modèles basés sur des LSTM à cette fin avant de passer aux architectures Transformer.
  2. Reconnaissance de la parole: Dans les applications de conversion de la parole en texte, les LSTM peuvent traiter des séquences de caractéristiques audio pour transcrire des mots parlés. Le modèle doit prendre en compte les sons précédents pour interpréter correctement le son actuel, ce qui démontre sa capacité à gérer les dépendances temporelles. De nombreux assistants virtuels modernes s'appuient sur cette technologie.

Comparaison avec d'autres modèles de séquences

Les LSTM font partie d'une famille plus large de modèles pour les données séquentielles.

  • Unité récurrente à portes (GRU): Une GRU est une version simplifiée d'une LSTM. Elle combine les portes d'oubli et d'entrée en une seule "porte de mise à jour" et fusionne l'état de la cellule et l'état caché. Les GRU sont donc plus efficaces sur le plan du calcul et plus rapides à former, bien qu'elles puissent être légèrement moins expressives que les LSTM dans certaines tâches.
  • Modèles de Markov cachés (HMM): Les HMM sont des modèles probabilistes moins complexes que les LSTM. Bien qu'ils soient utiles pour des tâches de séquence plus simples, ils ne peuvent pas capturer les dépendances complexes à long terme que les LSTM et d'autres réseaux neuronaux peuvent capturer.
  • Transformer : L'architecture Transformer, qui repose sur un mécanisme d'auto-attention, a largement dépassé les LSTM en tant qu'état de l'art pour de nombreuses tâches NLP. Contrairement au traitement séquentiel des LSTM, les Transformers peuvent traiter tous les éléments d'une séquence en parallèle, ce qui les rend très efficaces sur du matériel moderne comme les GPU et leur permet de mieux capturer les dépendances globales.

Mise en œuvre et outils

Les LSTM peuvent être facilement mises en œuvre à l'aide de cadres d'apprentissage profond populaires tels que PyTorch (voir la documentation PyTorch LSTM) et TensorFlow (voir la documentation TensorFlow LSTM). Bien qu'Ultralytics se concentre principalement sur les modèles de vision artificielle (CV) comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, la compréhension des modèles de séquences est précieuse, en particulier parce que la recherche explore les passerelles entre le NLP et le CV pour des tâches telles que la compréhension de vidéos ou le sous-titrage d'images. Vous pouvez explorer les différents modèles et concepts de ML dans la documentation d'Ultralytics. La gestion de la formation et du déploiement de divers modèles peut être rationalisée à l'aide de plateformes comme Ultralytics HUB. Des ressources telles que DeepLearning.AI proposent des cours couvrant les modèles de séquence, y compris les LSTM.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers