用語集

長期短期記憶(LSTM)

長短期記憶(LSTM)ネットワークが、シーケンシャルなデータの処理、RNNの限界の克服、NLPや予測などのAIタスクのパワーアップにいかに優れているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ロング・ショート・ターム・メモリー(LSTM)は、リカレント・ニューラル・ネットワーク(RNN)の一種で、長距離依存関係の学習における従来のRNNの限界を克服するために設計された。1997年にSepp HochreiterとJürgen Schmidhuberによって発表されたLSTMは、テキスト、音声、時系列などの一連のデータを処理するのに特に効果的である。この能力により、LSTMは様々なディープラーニング(DL)アプリケーションの基礎技術となっている。

LSTMの仕組み

従来のRNNは、シーケンスの初期段階からの情報がネットワークを伝搬するにつれて消えていき、長い間隔での依存関係を学習することが難しくなるという、勾配の消失問題に苦戦していた。LSTMは、メモリセルとゲートを含む独自の構造を用いてこの問題に対処する。

コア・コンポーネントはメモリー・セルで、ベルトコンベアーのような働きをし、情報が比較的変化せずにネットワーク内を流れるようにする。LSTMは主に3つの「ゲート」を使って、メモリセルに格納された情報を制御する:

  1. 忘却ゲート:セルの状態からどの情報を捨てるかを決める。
  2. 入力ゲート:どの新しい情報をセル状態に格納するかを決定する。
  3. 出力ゲート:セル状態のどの部分を出力するかを決める。

シグモイドや tanhのような活性化関数を用いて実装されたこれらのゲートは、各時間ステップで、どの情報を残すべきか、あるいは捨てるべきかを学習する。

実世界での応用

LSTMは、配列モデリングを必要とする多くの領域で応用され、成功を収めている:

  • 自然言語処理(NLP)LSTMは、機械翻訳(例えば、意味を保ちながら長い文章を翻訳する)、感情分析(テキストで表現された意見を理解する)、言語モデリングなどのタスクに優れている。例えば、LSTMはテキストの段落を処理して全体的なセンチメントを理解し、最後の意味に影響する重要なフレーズを最初から記憶することができます。
  • 音声認識音声信号の時間的依存関係をモデル化することで、話し言葉をテキストに変換するために使用される。LSTMベースのシステムは、時間の経過に伴う音のシーケンスを考慮することで、単語やフレーズを認識することができ、長距離のコンテキストを捉えないモデルに比べて精度が向上する。Google音声認識システムは、これまでLSTMを利用してきた。
  • 時系列分析LSTMは、株価、天候パターン、エネルギー消費など、過去のデータに基づいて将来の値を予測するために応用される。長期的なトレンドを記憶する能力があるため、複雑な予測モデリングに適している。
  • ビデオ解析:LSTMはビデオフレームのシーケンスを処理して、時間経過とともに発生するアクションやイベントを理解することができ、アクティビティ認識などのアプリケーションに貢献する。

LSTMと関連アーキテクチャの比較

強力ではあるが、LSTMはより広範なシーケンスモデル・ファミリーの一部である:

  • RNNLSTMはRNNの一種で、単純なRNNが抱える短期記憶の問題を回避するために特別に設計されている。
  • ゲーテッド・リカレント・ユニット(GRU)GRUはLSTMのバリエーションで、よりシンプルなアーキテクチャ(ゲート数が少ない)を持つ。特定のタスクではLSTMに匹敵する性能を発揮することが多いが、計算量は少ない。
  • トランスフォーマー後に導入されたトランスフォーマーは、再帰ではなく注意メカニズムに依存している。多くの自然言語処理タスク、特にGPT-4のような大規模言語モデル(LLM)において、最先端のパフォーマンスでLSTMを大きく上回っている。Longformerのようなアーキテクチャは、非常に長いシーケンスに対するTransformerの能力をさらに拡張する。

実装とツール

LSTMは、次のような一般的なディープラーニングフレームワークを使って簡単に実装できる。 PyTorchTensorFlow(TensorFlow LSTMのドキュメントを参照)。Ultralytics 、主に以下のようなコンピュータビジョン(CV)モデルに焦点を当てています。 Ultralytics YOLOのようなコンピュータビジョン(CV)モデルに焦点を当てていますが、シーケンスモデルを理解することは、特に、ビデオ理解や画像キャプションのようなタスクのために、NLPとCVの橋渡しをする研究が進められている中で貴重です。さまざまなMLモデルと概念については、Ultralytics ドキュメントを参照してください。様々なモデルのトレーニングと デプロイの管理は、Ultralytics HUBのようなプラットフォームを使って効率化できます。HochreiterとSchmidhuberによるLSTMの基礎的な論文は、オリジナルの技術的な詳細を提供しています。DeepLearning.AIのようなリソースは、LSTMを含むシーケンスモデルをカバーするコースを提供しています。

すべて読む