Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Long Short-Term Memory (LSTM)

Entdecken Sie, wie Long Short-Term Memory (LSTM) Netzwerke sich in der Verarbeitung sequenzieller Daten auszeichnen, RNN-Beschränkungen überwinden und KI-Aufgaben wie NLP und Prognosen ermöglichen.

Das Langzeitgedächtnis (Long Short-Term Memory, LSTM) ist ein spezieller Typ von rekurrenten neuronalen Netzen (RNN), die für das Lernen und Erinnern von Mustern über lange Datensequenzen entwickelt wurden. Im Gegensatz zu Standard-RNNs, die aufgrund des Problems des verschwindenden Gradienten mit langfristigen Abhängigkeiten zu kämpfen haben, verwenden LSTMs einen einzigartigen Gating-Mechanismus zur Regulierung des Informationsflusses. Dadurch kann das Netzwerk selektiv wichtige Informationen über längere Zeiträume hinweg behalten, während irrelevante Daten verworfen werden, was es zu einem Eckpfeiler des modernen Deep Learning macht, insbesondere bei der Verarbeitung natürlicher Sprache (NLP). Das grundlegende LSTM-Papier von Hochreiter und Schmidhuber legte den Grundstein für diese leistungsstarke Technologie.

Wie LSTMs funktionieren

Der Schlüssel zur Leistungsfähigkeit eines LSTM liegt in seiner internen Struktur, die einen "Zellzustand" und mehrere "Gatter" umfasst. Der Zellzustand fungiert als Förderband, das relevante Informationen durch die Sequenz transportiert. Die Gatter – Input, Forget und Output – sind neuronale Netze, die steuern, welche Informationen dem Zellzustand hinzugefügt, aus ihm entfernt oder aus ihm gelesen werden.

  • Forget Gate: Entscheidet, welche Informationen aus dem vorherigen Zellzustand verworfen werden sollen.
  • Input Gate: Bestimmt, welche neuen Informationen aus der aktuellen Eingabe im Zellzustand gespeichert werden sollen.
  • Output Gate: Steuert, welche Informationen aus dem Zellzustand verwendet werden, um die Ausgabe für den aktuellen Zeitschritt zu generieren.

Diese Gating-Struktur ermöglicht es LSTMs, den Kontext über viele Zeitschritte hinweg aufrechtzuerhalten, ein entscheidendes Merkmal für das Verständnis sequenzieller Daten wie Text oder Zeitreihen. Eine detaillierte Visualisierung finden Sie in diesem beliebten Blogbeitrag zum Verständnis von LSTMs.

Anwendungsfälle in der Praxis

LSTMs wurden erfolgreich in zahlreichen Bereichen eingesetzt, die sequentielle Daten beinhalten.

  1. Maschinelle Übersetzung: LSTMs können einen Satz in einer Sprache Wort für Wort verarbeiten, eine interne Darstellung (Verständnis) aufbauen und dann eine Übersetzung in eine andere Sprache erstellen. Dazu müssen sie sich den Kontext vom Anfang des Satzes merken, um eine kohärente Übersetzung zu erstellen. Google Translate hat in der Vergangenheit LSTM-basierte Modelle für diesen Zweck verwendet, bevor es zu Transformer-Architekturen überging.
  2. Erkennung von Sprache: Bei Sprache-zu-Text-Anwendungen können LSTMs Sequenzen von Audiomerkmalen verarbeiten, um gesprochene Wörter zu transkribieren. Das Modell muss frühere Töne berücksichtigen, um den aktuellen richtig zu interpretieren, was seine Fähigkeit unter Beweis stellt, zeitliche Abhängigkeiten zu verarbeiten. Viele moderne virtuelle Assistenten haben sich auf diese Technologie gestützt.

Vergleich mit anderen Sequenzmodellen

LSTMs sind Teil einer größeren Familie von Modellen für sequentielle Daten.

  • Gated Recurrent Unit (GRU): Eine GRU ist eine vereinfachte Version eines LSTM. Sie kombiniert die Vergessens- und Eingabegatter zu einem einzigen "Aktualisierungsgatter" und verschmilzt den Zellzustand mit dem verborgenen Zustand. Dadurch sind GRUs rechnerisch effizienter und schneller zu trainieren, auch wenn sie bei einigen Aufgaben etwas weniger aussagekräftig sind als LSTMs.
  • Versteckte Markov-Modelle (HMMs): HMMs sind probabilistische Modelle, die weniger komplex sind als LSTMs. Obwohl sie für einfachere Sequenzaufgaben nützlich sind, können sie nicht die komplexen, weitreichenden Abhängigkeiten erfassen, die LSTMs und andere neuronale Netze können.
  • Transformer: Die Transformer-Architektur, die auf einem Self-Attention-Mechanismus basiert, hat LSTMs als State-of-the-Art für viele NLP-Aufgaben weitgehend übertroffen. Im Gegensatz zur sequentiellen Verarbeitung von LSTMs können Transformer alle Elemente einer Sequenz parallel verarbeiten, was sie auf moderner Hardware wie GPUs hocheffizient macht und globale Abhängigkeiten besser erfasst.

Implementierung und Tools

LSTMs können einfach mit beliebten Deep-Learning-Frameworks wie PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation) implementiert werden. Während sich Ultralytics in erster Linie auf Computer Vision (CV)-Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung konzentriert, ist das Verständnis von Sequenzmodellen wertvoll, insbesondere da die Forschung die Verbindung von NLP und CV für Aufgaben wie Video Understanding oder Image Captioning untersucht. Sie können verschiedene ML-Modelle und -Konzepte in der Ultralytics-Dokumentation weiter erforschen. Die Verwaltung des Trainings und des Deployments verschiedener Modelle kann mit Plattformen wie Ultralytics HUB optimiert werden. Ressourcen wie DeepLearning.AI bieten Kurse an, die Sequenzmodelle, einschließlich LSTMs, abdecken.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert