長短期記憶(LSTM)ネットワークが、シーケンシャルなデータの処理、RNNの限界の克服、NLPや予測などのAIタスクのパワーアップにいかに優れているかをご覧ください。
ロング・ショート・ターム・メモリー(LSTM)は、リカレント・ニューラル・ネットワーク(RNN)の一種で、長距離依存関係の学習における従来のRNNの限界を克服するために設計された。1997年にSepp HochreiterとJürgen Schmidhuberによって発表されたLSTMは、テキスト、音声、時系列などの一連のデータを処理するのに特に効果的である。この能力により、LSTMは様々なディープラーニング(DL)アプリケーションの基礎技術となっている。
従来のRNNは、シーケンスの初期段階からの情報がネットワークを伝搬するにつれて消えていき、長い間隔での依存関係を学習することが難しくなるという、勾配の消失問題に苦戦していた。LSTMは、メモリセルとゲートを含む独自の構造を用いてこの問題に対処する。
コア・コンポーネントはメモリー・セルで、ベルトコンベアーのような働きをし、情報が比較的変化せずにネットワーク内を流れるようにする。LSTMは主に3つの「ゲート」を使って、メモリセルに格納された情報を制御する:
シグモイドや tanhのような活性化関数を用いて実装されたこれらのゲートは、各時間ステップで、どの情報を残すべきか、あるいは捨てるべきかを学習する。
LSTMは、配列モデリングを必要とする多くの領域で応用され、成功を収めている:
強力ではあるが、LSTMはより広範なシーケンスモデル・ファミリーの一部である:
LSTMは、次のような一般的なディープラーニングフレームワークを使って簡単に実装できる。 PyTorchや TensorFlow(TensorFlow LSTMのドキュメントを参照)。Ultralytics 、主に以下のようなコンピュータビジョン(CV)モデルに焦点を当てています。 Ultralytics YOLOのようなコンピュータビジョン(CV)モデルに焦点を当てていますが、シーケンスモデルを理解することは、特に、ビデオ理解や画像キャプションのようなタスクのために、NLPとCVの橋渡しをする研究が進められている中で貴重です。さまざまなMLモデルと概念については、Ultralytics ドキュメントを参照してください。様々なモデルのトレーニングと デプロイの管理は、Ultralytics HUBのようなプラットフォームを使って効率化できます。HochreiterとSchmidhuberによるLSTMの基礎的な論文は、オリジナルの技術的な詳細を提供しています。DeepLearning.AIのようなリソースは、LSTMを含むシーケンスモデルをカバーするコースを提供しています。