Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Long Short-Term Memory (LSTM)

Erkunde Long Short-Term Memory (LSTM)-Netzwerke. Erfahre, wie LSTMs das Problem verschwindender Gradienten in RNNs für Zeitreihen, NLP und Videoanalysen lösen.

Long Short-Term Memory (LSTM) ist eine spezialisierte Art der Architektur eines recurrent neural network (RNN), die in der Lage ist, Abhängigkeiten in der Reihenfolge von Sequenzvorhersageproblemen zu lernen. Im Gegensatz zu herkömmlichen Feedforward-neuronalen Netzen verfügen LSTMs über Feedback-Verbindungen, die es ihnen ermöglichen, nicht nur einzelne Datenpunkte (wie Bilder), sondern ganze Datensequenzen (wie Sprache oder Video) zu verarbeiten. Diese Fähigkeit macht sie einzigartig geeignet für Aufgaben, bei denen der Kontext früherer Eingaben für das Verständnis aktueller Daten entscheidend ist, wodurch die Einschränkungen des „Kurzzeitgedächtnisses“ herkömmlicher RNNs überwunden werden.

Link to this sectionDas Problem mit Standard-RNNs#

Um die Innovation von LSTMs zu verstehen, hilft es, die Herausforderungen zu betrachten, mit denen grundlegende recurrent neural networks konfrontiert sind. Obwohl RNNs darauf ausgelegt sind, sequentielle Informationen zu verarbeiten, haben sie aufgrund des vanishing gradient-Problems Schwierigkeiten mit langen Datensequenzen. Während das Netzwerk durch die Zeit backpropagiert, können die Gradienten – Werte, die zur Aktualisierung der Netzwerkgewichte verwendet werden – exponentiell kleiner werden, was das Netzwerk effektiv daran hindert, Zusammenhänge zwischen entfernten Ereignissen zu lernen. Das bedeutet, dass ein Standard-RNN zwar ein Wort aus dem vorherigen Satz behalten, aber den Kontext, der drei Absätze zuvor aufgebaut wurde, vergessen könnte. LSTMs wurden ausdrücklich entwickelt, um dieses Problem zu lösen, indem sie eine komplexere interne Struktur einführen, die ein context window über viel längere Zeiträume aufrechterhalten kann.

Link to this sectionWie LSTMs funktionieren#

Das Kernkonzept hinter einem LSTM ist der Zellzustand, der oft als Förderband beschrieben wird, das durch die gesamte Kette des Netzwerks läuft. Dieser Zustand ermöglicht es Informationen, unverändert entlang des Bandes zu fließen und langfristige Abhängigkeiten zu bewahren. Das Netzwerk trifft Entscheidungen darüber, was gespeichert, aktualisiert oder aus diesem Zellzustand verworfen werden soll, indem es Strukturen verwendet, die Gates genannt werden.

  • Forget Gate: Dieser Mechanismus entscheidet, welche Informationen nicht mehr relevant sind und aus dem Zellzustand entfernt werden sollten. Wenn ein Sprachmodell beispielsweise auf ein neues Subjekt trifft, könnte es das Geschlecht des vorherigen Subjekts „vergessen“.
  • Input Gate: Dieses Gate bestimmt, welche neuen Informationen signifikant genug sind, um im Zellzustand gespeichert zu werden.
  • Output Gate: Schließlich steuert dieses Gate, welche Teile des internen Zustands an den nächsten verborgenen Zustand ausgegeben und für die unmittelbare Vorhersage verwendet werden sollen.

Durch die Regulierung dieses Informationsflusses können LSTMs Zeitverzögerungen von mehr als 1.000 Schritten überbrücken und konventionelle RNNs bei Aufgaben, die eine time series analysis erfordern, bei weitem übertreffen.

Link to this sectionPraxisanwendungen#

LSTMs haben im letzten Jahrzehnt viele der großen Durchbrüche im deep learning vorangetrieben. Hier sind zwei prominente Beispiele für ihre Anwendung:

  • Sequence-to-Sequence Modeling in der Übersetzung: LSTMs sind grundlegend für machine translation-Systeme. Bei dieser Architektur verarbeitet ein LSTM (der Encoder) einen Eingabesatz in einer Sprache (z. B. Englisch) und komprimiert ihn in einen Kontextvektor. Ein zweites LSTM (der Decoder) verwendet dann diesen Vektor, um die Übersetzung in einer anderen Sprache (z. B. Französisch) zu generieren. Diese Fähigkeit, Eingabe- und Ausgabesequenzen unterschiedlicher Länge zu handhaben, ist entscheidend für die natural language processing (NLP).
  • Videoanalyse und Aktivitätserkennung: Während Convolutional Neural Networks (CNNs) wie ResNet-50 hervorragend darin sind, Objekte in statischen Bildern zu identifizieren, fehlt ihnen ein Zeitgefühl. Durch die Kombination von CNNs mit LSTMs können KI-Systeme eine action recognition in Videoströmen durchführen. Das CNN extrahiert Merkmale aus jedem Frame, und das LSTM analysiert die Sequenz dieser Merkmale, um zu bestimmen, ob eine Person geht, rennt oder fällt.

Link to this sectionIntegration von LSTMs in Computer Vision#

In der modernen computer vision werden LSTMs oft zusammen mit leistungsstarken Merkmalsextraktoren verwendet. Du könntest zum Beispiel ein YOLO-Modell verwenden, um Objekte in einzelnen Frames zu erkennen, und ein LSTM, um deren Trajektorien zu verfolgen oder zukünftige Bewegungen vorherzusagen.

Hier ist ein konzeptionelles Beispiel unter Verwendung von torch, um ein einfaches LSTM zu definieren, das eine Sequenz von aus einem Videostream extrahierten Merkmalsvektoren verarbeiten könnte:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Link to this sectionVerwandte Konzepte und Unterscheidungen#

Es ist hilfreich, LSTMs von anderen Sequenzverarbeitungsarchitekturen zu unterscheiden:

  • LSTM vs. GRU: Die Gated Recurrent Unit (GRU) ist eine vereinfachte Variante des LSTM. GRUs kombinieren das Forget- und Input-Gate zu einem einzigen „Update-Gate“ und führen den Zellzustand und den verborgenen Zustand zusammen. Dies macht GRUs rechnerisch effizienter und schneller im Training, obwohl LSTMs auf größeren, komplexeren Datensätzen immer noch besser abschneiden können.
  • LSTM vs. Transformers: Die Transformer-Architektur, die auf self-attention-Mechanismen anstatt auf Rekursion basiert, hat LSTMs bei NLP-Aufgaben, wie sie von GPT-4 ausgeführt werden, weitgehend abgelöst. Transformer können ganze Sequenzen parallel statt sequentiell verarbeiten, was ein wesentlich schnelleres Training auf riesigen Datensätzen ermöglicht. LSTMs bleiben jedoch relevant in Szenarien mit begrenzten Daten oder spezifischen Zeitreihenbeschränkungen, in denen der Overhead von Attention-Mechanismen unnötig ist.

Link to this sectionEvolution und Zukunft#

Während der attention mechanism in der generative AI eine zentrale Rolle spielt, sind LSTMs weiterhin eine robuste Wahl für leichtere Anwendungen, insbesondere in edge AI-Umgebungen, in denen Rechenressourcen begrenzt sind. Forscher untersuchen weiterhin hybride Architekturen, die die Speichereffizienz von LSTMs mit der Repräsentationskraft moderner object detection-Systeme kombinieren.

Für diejenigen, die Datensätze für das Training von Sequenzmodellen oder komplexen Vision-Aufgaben verwalten möchten, bietet die Ultralytics Platform umfassende Tools für Annotation und Datensatzverwaltung. Darüber hinaus bietet das Verständnis der Funktionsweise von LSTMs eine starke Grundlage, um fortgeschrittenere temporale Modelle zu verstehen, die in autonomous vehicles und der Robotik verwendet werden.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens