Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Long Short-Term Memory (LSTM)

Entdecken Sie Long Short-Term Memory (LSTM)-Netzwerke. Erfahren Sie, wie LSTMs das Problem des verschwindenden Gradienten in RNNs für Zeitreihen, NLP und Videoanalyseaufgaben lösen.

Long Short-Term Memory (LSTM) ist eine spezielle Art von rekurrenter neuronaler Netzwerkarchitektur (RNN) , die in der Lage ist, Ordnungsabhängigkeiten bei Sequenzvorhersageproblemen zu lernen. Im Gegensatz zu herkömmlichen Feedforward-Neuralnetzwerken verfügen LSTMs über Rückkopplungsverbindungen, die es ihnen ermöglichen, nicht nur einzelne Datenpunkte (wie Bilder), sondern ganze Datensequenzen (wie Sprache oder Video) zu verarbeiten. Diese Fähigkeit macht sie besonders geeignet für Aufgaben, bei denen der Kontext früherer Eingaben für das Verständnis der aktuellen Daten entscheidend ist, und behebt damit die Einschränkungen des „Kurzzeitgedächtnisses” herkömmlicher RNNs.

Das Problem mit Standard-RNNs

Um die Innovation von LSTMs zu verstehen, ist es hilfreich, sich die Herausforderungen anzusehen, denen sich einfache rezursive neuronale Netze gegenübersehen. Obwohl RNNs für die Verarbeitung sequenzieller Informationen ausgelegt sind, haben sie aufgrund des Problems des verschwindenden Gradienten Schwierigkeiten mit langen Datensequenzen. Wenn das Netzwerk im Laufe der Zeit rückwärts propagiert, können die Gradienten – Werte, die zur Aktualisierung der Gewichte des Netzwerks verwendet werden – exponentiell kleiner werden, was das Netzwerk effektiv daran hindert, Verbindungen zwischen weit auseinander liegenden Ereignissen zu lernen. Das bedeutet, dass ein Standard- RNN sich zwar an ein Wort aus dem vorherigen Satz erinnern kann, aber den drei Absätze zuvor etablierten Kontext vergisst. LSTMs wurden ausdrücklich entwickelt, um dieses Problem zu lösen, indem sie eine komplexere interne Struktur einführen, die ein Kontextfenster über viel längere Zeiträume aufrechterhalten kann.

Wie LSTMs funktionieren

Das Kernkonzept hinter einem LSTM ist der Zellzustand, der oft als ein Förderband beschrieben wird, das durch die gesamte Kette des Netzwerks läuft. Dieser Zustand ermöglicht es, dass Informationen unverändert entlangfließen können, wodurch langfristige Abhängigkeiten erhalten bleiben. Das Netzwerk trifft Entscheidungen darüber, was aus diesem Zellzustand gespeichert, aktualisiert oder verworfen werden soll, indem es Strukturen verwendet, die als Gates bezeichnet werden.

  • Forget Gate: Dieser Mechanismus entscheidet, welche Informationen nicht mehr relevant sind und aus dem Zellzustand entfernt werden sollten . Wenn ein Sprachmodell beispielsweise auf ein neues Subjekt stößt, könnte es das Geschlecht des vorherigen Subjekts „vergessen”.
  • Eingangs-Gate: Dieses Gate bestimmt, welche neuen Informationen wichtig genug sind, um im Zellzustand gespeichert zu werden.
  • Ausgangsgate: Schließlich steuert dieses Gate, welche Teile des internen Zustands an den nächsten versteckten Zustand ausgegeben und für die unmittelbare Vorhersage verwendet werden sollen.

Durch die Regulierung dieses Informationsflusses können LSTMs Zeitverzögerungen von mehr als 1.000 Schritten überbrücken und übertreffen damit bei weitem herkömmliche RNNs bei Aufgaben, die eine Zeitreihenanalyse erfordern.

Anwendungsfälle in der Praxis

LSTMs haben in den letzten zehn Jahren viele der wichtigsten Durchbrüche im Bereich des Deep Learning ermöglicht. Hier sind zwei herausragende Beispiele für ihre Anwendung:

  • Sequenz-zu-Sequenz-Modellierung in der Übersetzung: LSTMs sind grundlegend für maschinelle Übersetzungssysteme. In dieser Architektur verarbeitet ein LSTM (der Encoder) einen Eingabesatz in einer Sprache (z. B. English) und komprimiert ihn zu einem Kontextvektor. Ein zweites LSTM (der Decoder) verwendet diesen Vektor dann, um die Übersetzung in eine andere Sprache (z. B. Französisch) zu generieren. Diese Fähigkeit, Eingabe- und Ausgabesequenzen unterschiedlicher Länge zu verarbeiten, ist für die natürliche Sprachverarbeitung (NLP) von entscheidender Bedeutung.
  • Videoanalyse und Aktivitätserkennung: Während Convolutional Neural Networks (CNNs) wie ResNet-50 sich hervorragend für die Identifizierung von Objekten in statischen Bildern eignen, fehlt ihnen das Zeitgefühl. Durch die Kombination von CNNs mit LSTMs können KI-Systeme Aktionserkennung in Videostreams durchführen . Das CNN extrahiert Merkmale aus jedem Bild, und das LSTM analysiert die Abfolge dieser Merkmale, um festzustellen, ob eine Person geht, rennt oder fällt.

Integration von LSTMs in die Bildverarbeitung

In der modernen Computervision werden LSTMs häufig zusammen mit leistungsstarken Merkmalsextraktoren eingesetzt. So könnte man beispielsweise ein YOLO verwenden, um detect in einzelnen Bildern detect , und ein LSTM, um track Bewegungsbahnen track oder zukünftige Bewegungen vorherzusagen.

Hier ist ein konzeptionelles Beispiel unter Verwendung von torch Um ein einfaches LSTM zu definieren, das eine Folge von Merkmalsvektoren verarbeiten kann, die aus einem Videostream extrahiert wurden:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Verwandte Konzepte und Unterscheidungen

Es ist hilfreich, LSTMs von anderen Sequenzverarbeitungsarchitekturen zu unterscheiden:

  • LSTM vs. GRU: Die Gated Recurrent Unit (GRU) ist eine vereinfachte Variante des LSTM. GRUs kombinieren das Forget- und das Input-Gate zu einem einzigen „Update-Gate” und führen den Zellzustand und den versteckten Zustand zusammen. Dadurch sind GRUs rechnerisch effizienter und schneller zu trainieren, obwohl LSTMs sie bei größeren, komplexeren Datensätzen möglicherweise immer noch übertreffen.
  • LSTM vs. Transformers: Die Transformer-Architektur, die sich eher auf Selbstaufmerksamkeitsmechanismen als auf Rekursion stützt, hat LSTMs bei NLP-Aufgaben, wie sie beispielsweise von GPT-4 ausgeführt werden, weitgehend abgelöst. Transformers können ganze Sequenzen parallel statt sequenziell verarbeiten, was ein wesentlich schnelleres Training mit riesigen Datensätzen ermöglicht. LSTMs bleiben jedoch in Szenarien mit begrenzten Daten oder spezifischen Zeitreihenbeschränkungen relevant, in denen der Aufwand für Aufmerksamkeitsmechanismen unnötig ist.

Entwicklung und Zukunft

Während der Aufmerksamkeitsmechanismus bei der generativen KI im Mittelpunkt steht , sind LSTMs weiterhin eine robuste Wahl für weniger anspruchsvolle Anwendungen, insbesondere in Edge-KI-Umgebungen, in denen die Rechenressourcen begrenzt sind. Forscher untersuchen weiterhin hybride Architekturen, die die Speichereffizienz von LSTMs mit der Darstellungsleistung moderner Objekterkennungssysteme kombinieren.

Für diejenigen, die Datensätze für das Training von Sequenzmodellen oder komplexe Bildverarbeitungsaufgaben verwalten möchten, bietet Ultralytics umfassende Tools für die Annotation und Datensatzverwaltung. Darüber hinaus bildet das Verständnis der Funktionsweise von LSTMs eine solide Grundlage für das Verständnis fortgeschrittener zeitlicher Modelle, die in autonomen Fahrzeugen und in der Robotik

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten