Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Mémoire à long terme (LSTM)

Découvrez comment les réseaux de mémoire à long terme (LSTM) excellent dans le traitement des données séquentielles, surmontant les limitations des RNN et alimentant les tâches d'IA comme le NLP et la prévision.

La mémoire à court et long terme (LSTM) est un type spécialisé d'architecture de réseau neuronal récurrent (RNN) conçue pour apprendre et mémoriser des modèles sur de longues séquences de données. Contrairement aux RNN standard, qui ont du mal avec les dépendances à long terme en raison du problème de disparition du gradient, les LSTM utilisent un mécanisme de gating unique pour réguler le flux d'informations. Cela permet au réseau de conserver sélectivement les informations importantes pendant des périodes prolongées tout en rejetant les données non pertinentes, ce qui en fait la pierre angulaire du deep learning moderne, en particulier dans le traitement du langage naturel (NLP). L'article fondateur sur les LSTM de Hochreiter et Schmidhuber a jeté les bases de cette technologie puissante.

Comment fonctionnent les LSTM

La clé de la capacité d'un LSTM réside dans sa structure interne, qui comprend un "état de cellule" et plusieurs "portes". L'état de la cellule agit comme une courroie de transmission, transportant les informations pertinentes à travers la séquence. Les portes (entrée, oubli et sortie) sont des réseaux neuronaux qui contrôlent les informations ajoutées, supprimées ou lues à partir de l'état de la cellule.

  • Porte d'oubli (Forget Gate) : Décide quelles informations de l'état de la cellule précédente doivent être supprimées.
  • Porte d'entrée : Détermine quelles nouvelles informations de l'entrée actuelle doivent être stockées dans l'état de la cellule.
  • Porte de sortie : Contrôle quelles informations de l'état de la cellule sont utilisées pour générer la sortie pour l'étape de temps actuelle.

Cette structure de gating permet aux LSTM de maintenir le contexte sur de nombreux pas de temps, une caractéristique essentielle pour comprendre les données séquentielles comme le texte ou les séries temporelles. Une visualisation détaillée peut être trouvée dans cet article de blog populaire Understanding LSTMs.

Applications concrètes

Les LSTM ont été appliquées avec succès dans de nombreux domaines impliquant des données séquentielles.

  1. Traduction automatique: Les LSTM peuvent traiter une phrase dans une langue mot par mot, construire une représentation interne (compréhension), puis générer une traduction dans une autre langue. Cela nécessite de se souvenir du contexte depuis le début de la phrase pour produire une traduction cohérente. Google Translate utilisait historiquement des modèles basés sur LSTM à cette fin avant de passer aux architectures Transformer.
  2. Reconnaissance vocale: Dans les applications de speech-to-text, les LSTM peuvent traiter des séquences de caractéristiques audio pour transcrire les mots prononcés. Le modèle doit tenir compte des sons précédents pour interpréter correctement le son actuel, ce qui démontre sa capacité à gérer les dépendances temporelles. De nombreux assistants virtuels modernes se sont appuyés sur cette technologie.

Comparaison avec d'autres modèles de séquences

Les LSTM font partie d'une famille plus large de modèles pour les données séquentielles.

  • Unité récurrente à porte (GRU): Une GRU est une version simplifiée d'une LSTM. Elle combine les portes d'oubli et d'entrée en une seule "porte de mise à jour" et fusionne l'état de la cellule et l'état caché. Cela rend les GRU plus efficaces sur le plan computationnel et plus rapides à entraîner, bien qu'elles puissent être légèrement moins expressives que les LSTM sur certaines tâches.
  • Modèles de Markov cachés (HMM): Les HMM sont des modèles probabilistes moins complexes que les LSTM. Bien qu'utiles pour des tâches de séquences plus simples, ils ne peuvent pas capturer les dépendances complexes à longue portée que les LSTM et autres réseaux neuronaux peuvent saisir.
  • Transformer : L’architecture Transformer, qui repose sur un mécanisme d’auto-attention, a largement dépassé les LSTM en tant que technologie de pointe pour de nombreuses tâches de NLP. Contrairement au traitement séquentiel des LSTM, les Transformers peuvent traiter tous les éléments d’une séquence en parallèle, ce qui les rend très efficaces sur du matériel moderne comme les GPU et plus aptes à capturer les dépendances globales.

Implémentation et outils

Les LSTM peuvent être facilement implémentées à l'aide de frameworks d'apprentissage profond populaires tels que PyTorch (voir la documentation PyTorch LSTM) et TensorFlow (voir la documentation TensorFlow LSTM). Bien qu'Ultralytics se concentre principalement sur les modèles de vision par ordinateur (CV) tels que Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'instances, la compréhension des modèles de séquence est précieuse, en particulier lorsque la recherche explore le pontage du NLP et de la CV pour des tâches telles que la compréhension vidéo ou la légende d'images. Vous pouvez explorer divers modèles et concepts de ML plus en détail dans la documentation Ultralytics. La gestion de l'entraînement et du déploiement de divers modèles peut être rationalisée à l'aide de plateformes telles que Ultralytics HUB. Des ressources telles que DeepLearning.AI proposent des cours couvrant les modèles de séquence, y compris les LSTM.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers