Glossar

Langes Kurzzeitgedächtnis (LSTM)

Entdecken Sie, wie Long Short-Term Memory (LSTM)-Netzwerke sequenzielle Daten verarbeiten, die Grenzen von RNN überwinden und KI-Aufgaben wie NLP und Prognosen unterstützen.

Long Short-Term Memory (LSTM) ist ein spezieller Typ von rekurrenten neuronalen Netzen (RNN), die entwickelt wurden, um die Beschränkungen traditioneller RNNs beim Erlernen langfristiger Abhängigkeiten zu überwinden. LSTMs, die 1997 von Sepp Hochreiter und Jürgen Schmidhuber eingeführt wurden, sind besonders effektiv bei der Verarbeitung von Datensequenzen wie Text, Sprache und Zeitreihen, bei denen der Kontext aus früheren Teilen der Sequenz für das Verständnis späterer Teile entscheidend ist. Diese Fähigkeit macht sie zu einer Eckpfeilertechnologie in verschiedenen Deep Learning (DL)-Anwendungen.

Wie LSTMs funktionieren

Herkömmliche RNNs haben mit dem Problem des verschwindenden Gradienten zu kämpfen, bei dem die Informationen aus den ersten Schritten einer Sequenz verblassen, während sie sich im Netzwerk ausbreiten, was das Erlernen von Abhängigkeiten über lange Intervalle erschwert. LSTMs lösen dieses Problem durch eine einzigartige Struktur mit Speicherzellen und Gattern.

Die Kernkomponente ist die Speicherzelle, die wie ein Förderband funktioniert und es ermöglicht, dass Informationen relativ unverändert durch das Netzwerk fließen. LSTMs verwenden drei Haupt-"Gates", um die in der Speicherzelle gespeicherten Informationen zu regulieren:

  1. Vergessen-Gate: Entscheidet, welche Informationen aus dem Zustand der Zelle weggeworfen werden sollen.
  2. Eingabe-Gate: Entscheidet, welche neuen Informationen im Zellstatus gespeichert werden sollen.
  3. Ausgangsgatter: Entscheidet, welcher Teil des Zellzustands ausgegeben werden soll.

Diese Gatter, die mit Aktivierungsfunktionen wie Sigmoid und Tanh implementiert werden, lernen, welche Informationen bei jedem Zeitschritt wichtig sind, um sie zu behalten oder zu verwerfen, so dass das Netz in der Lage ist, den relevanten Kontext über längere Sequenzen hinweg beizubehalten.

Anwendungen in der realen Welt

LSTMs wurden in zahlreichen Bereichen, die eine Sequenzmodellierung erfordern, erfolgreich eingesetzt:

  • Verarbeitung natürlicher Sprache (NLP): LSTMs eignen sich hervorragend für Aufgaben wie maschinelle Übersetzung (z. B. die Übersetzung langer Sätze unter Beibehaltung der Bedeutung), Stimmungsanalyse (Verständnis von in Texten ausgedrückten Meinungen) und Sprachmodellierung. So kann ein LSTM beispielsweise einen Textabsatz verarbeiten, um die allgemeine Stimmung zu verstehen, und sich dabei an wichtige Sätze vom Anfang erinnern, die die Bedeutung am Ende beeinflussen.
  • Spracherkennung: Sie werden verwendet, um gesprochene Sprache in Text umzuwandeln, indem die zeitlichen Abhängigkeiten in Audiosignalen modelliert werden. Ein LSTM-basiertes System kann Wörter und Sätze erkennen, indem es die zeitliche Abfolge von Klängen berücksichtigt und so die Genauigkeit im Vergleich zu Modellen verbessert, die keinen weitreichenden Kontext erfassen. Die Spracherkennungssysteme von Google haben in der Vergangenheit LSTMs verwendet.
  • Zeitreihenanalyse: LSTMs werden zur Vorhersage zukünftiger Werte auf der Grundlage historischer Daten, wie Aktienkurse, Wettermuster oder Energieverbrauch, eingesetzt. Dank ihrer Fähigkeit, sich langfristige Trends zu merken, eignen sie sich für komplexe Vorhersagemodelle.
  • Videoanalyse: LSTMs können Sequenzen von Videobildern verarbeiten, um Handlungen oder Ereignisse zu verstehen, die im Laufe der Zeit stattfinden, und tragen so zu Anwendungen wie der Aktivitätserkennung bei.

LSTMs vs. verwandte Architekturen

LSTMs sind zwar leistungsstark, gehören aber zu einer breiteren Familie von Sequenzmodellen:

  • RNNs: LSTMs sind eine Art von RNNs, die speziell entwickelt wurden, um die Probleme des Kurzzeitgedächtnisses von einfachen RNNs zu vermeiden.
  • Gated Recurrent Units (GRUs): GRUs sind eine Variante von LSTMs mit einer einfacheren Architektur (weniger Gatter). Bei bestimmten Aufgaben erbringen sie oft vergleichbare Leistungen wie LSTMs, sind aber weniger rechenintensiv.
  • Transformatoren: Die später eingeführten Transformers beruhen eher auf Aufmerksamkeitsmechanismen als auf Rekursion. Sie haben die LSTMs bei vielen NLP-Aufgaben, insbesondere bei großen Sprachmodellen (LLMs) wie GPT-4, in ihrer Leistung weit übertroffen. Architekturen wie Longformer erweitern die Fähigkeiten von Transformers für sehr lange Sequenzen.

Umsetzung und Tools

LSTMs lassen sich leicht mit gängigen Deep-Learning-Frameworks wie PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation) implementieren. Ultralytics konzentriert sich zwar in erster Linie auf Computer Vision (CV) -Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung, aber auch das Verständnis von Sequenzmodellen ist wertvoll, vor allem, da die Forschung eine Brücke zwischen NLP und CV für Aufgaben wie Videoverständnis oder Bilduntertitelung schlägt. In der Ultralytics-Dokumentation können Sie verschiedene ML-Modelle und -Konzepte näher untersuchen. Die Verwaltung der Ausbildung und des Einsatzes verschiedener Modelle kann mit Plattformen wie Ultralytics HUB rationalisiert werden. Das grundlegende LSTM-Papier von Hochreiter und Schmidhuber enthält die ursprünglichen technischen Details. Ressourcen wie DeepLearning.AI bieten Kurse über Sequenzmodelle, einschließlich LSTMs.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert