Entdecken Sie, wie Long Short-Term Memory (LSTM)-Netzwerke sequenzielle Daten verarbeiten, die Grenzen von RNN überwinden und KI-Aufgaben wie NLP und Prognosen unterstützen.
Long Short-Term Memory (LSTM) ist ein spezieller Typ von rekurrenten neuronalen Netzen (RNN), die entwickelt wurden, um die Beschränkungen traditioneller RNNs beim Erlernen langfristiger Abhängigkeiten zu überwinden. LSTMs, die 1997 von Sepp Hochreiter und Jürgen Schmidhuber eingeführt wurden, sind besonders effektiv bei der Verarbeitung von Datensequenzen wie Text, Sprache und Zeitreihen, bei denen der Kontext aus früheren Teilen der Sequenz für das Verständnis späterer Teile entscheidend ist. Diese Fähigkeit macht sie zu einer Eckpfeilertechnologie in verschiedenen Deep Learning (DL)-Anwendungen.
Herkömmliche RNNs haben mit dem Problem des verschwindenden Gradienten zu kämpfen, bei dem die Informationen aus den ersten Schritten einer Sequenz verblassen, während sie sich im Netzwerk ausbreiten, was das Erlernen von Abhängigkeiten über lange Intervalle erschwert. LSTMs lösen dieses Problem durch eine einzigartige Struktur mit Speicherzellen und Gattern.
Die Kernkomponente ist die Speicherzelle, die wie ein Förderband funktioniert und es ermöglicht, dass Informationen relativ unverändert durch das Netzwerk fließen. LSTMs verwenden drei Haupt-"Gates", um die in der Speicherzelle gespeicherten Informationen zu regulieren:
Diese Gatter, die mit Aktivierungsfunktionen wie Sigmoid und Tanh implementiert werden, lernen, welche Informationen bei jedem Zeitschritt wichtig sind, um sie zu behalten oder zu verwerfen, so dass das Netz in der Lage ist, den relevanten Kontext über längere Sequenzen hinweg beizubehalten.
LSTMs wurden in zahlreichen Bereichen, die eine Sequenzmodellierung erfordern, erfolgreich eingesetzt:
LSTMs sind zwar leistungsstark, gehören aber zu einer breiteren Familie von Sequenzmodellen:
LSTMs lassen sich leicht mit gängigen Deep-Learning-Frameworks wie PyTorch (siehe PyTorch LSTM-Dokumentation) und TensorFlow (siehe TensorFlow LSTM-Dokumentation) implementieren. Ultralytics konzentriert sich zwar in erster Linie auf Computer Vision (CV) -Modelle wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Instanzsegmentierung, aber auch das Verständnis von Sequenzmodellen ist wertvoll, vor allem, da die Forschung eine Brücke zwischen NLP und CV für Aufgaben wie Videoverständnis oder Bilduntertitelung schlägt. In der Ultralytics-Dokumentation können Sie verschiedene ML-Modelle und -Konzepte näher untersuchen. Die Verwaltung der Ausbildung und des Einsatzes verschiedener Modelle kann mit Plattformen wie Ultralytics HUB rationalisiert werden. Das grundlegende LSTM-Papier von Hochreiter und Schmidhuber enthält die ursprünglichen technischen Details. Ressourcen wie DeepLearning.AI bieten Kurse über Sequenzmodelle, einschließlich LSTMs.