長短期記憶(LSTM)ネットワークが、シーケンシャルなデータの処理、RNNの限界の克服、NLPや予測などのAIタスクのパワーアップにいかに優れているかをご覧ください。
ロング・ショート・ターム・メモリー(LSTM)は、リカレント・ニューラル・ネットワーク(RNN)の一種で、長距離依存関係の学習における従来のRNNの限界を克服するために設計された。1997年にSepp HochreiterとJürgen Schmidhuberによって発表されたLSTMは、テキスト、音声、時系列などの一連のデータを処理するのに特に効果的である。この能力により、LSTMは様々なディープラーニング(DL)アプリケーションの基礎技術となっている。
従来のRNNは、シーケンスの初期段階からの情報がネットワークを伝搬するにつれて消えていき、長い間隔での依存関係を学習することが難しくなるという、勾配の消失問題に苦戦していた。LSTMは、メモリセルとゲートを含む独自の構造を用いてこの問題に対処する。
コア・コンポーネントはメモリー・セルで、ベルトコンベアーのような役割を果たし、情報が比較的変化せずにネットワーク内を流れるようにする。LSTMは主に3つの「ゲート」を使って、メモリセルに格納された情報を制御する:
シグモイドや tanhのような活性化関数を用いて実装されたこれらのゲートは、各時間ステップで、どの情報を残すべきか、あるいは捨てるべきかを学習する。
LSTMは、配列モデリングを必要とする多くの領域で応用され、成功を収めている:
強力ではあるが、LSTMはより広範なシーケンスモデル・ファミリーの一部である:
LSTMは、PyTorch(PyTorch LSTMのドキュメントを参照)やTensorFlow(TensorFlow LSTMのドキュメントを参照)などの一般的なディープラーニングフレームワークを使用して容易に実装することができます。Ultralyticsは、主にオブジェクト検出や インスタンス分割などのタスクのためのUltralytics YOLOのようなコンピュータビジョン(CV)モデルに焦点を当てていますが、シーケンスモデルを理解することは、特にビデオ理解や画像キャプションのようなタスクのためのNLPとCVの橋渡しを探求する研究において貴重です。さまざまなMLモデルと概念については、Ultralyticsのドキュメントを参照してください。様々なモデルのトレーニングと デプロイの管理は、Ultralytics HUBのようなプラットフォームを使って効率化できます。HochreiterとSchmidhuberによるLSTMの基礎的な論文は、オリジナルの技術的な詳細を提供しています。DeepLearning.AIのようなリソースは、LSTMを含むシーケンスモデルをカバーするコースを提供しています。