Yolo 深圳
深セン
今すぐ参加
用語集

Long Short-Term Memory(LSTM)

Long Short-Term Memory (LSTM)ネットワークが、シーケンシャルデータの処理、RNNの制限の克服、NLPや予測などのAIタスクの推進において、どのように優れているかを発見してください。

LSTM(ロング・ショート・ターム・メモリー)は、RNN(リカレント・ニューラル・ネットワーク)の中でも特殊なアーキテクチャである。 リカレント・ニューラル・ネットワーク(RNN) 逐次的なデータを処理し、長期的な依存関係を効果的に捉えるように設計されている。標準的なフィードフォワード LSTMは、入力を個別に処理する標準的なフィードフォワード・ネットワークとは異なり、時間とともに持続する内部「メモリ」を維持する、 LSTMは、テキスト、オーディオ、金融データのようなシーケンスのパターンを学習することができる。この機能は この機能は、従来のRNNにおける重要な限界である ネットワークが以前の情報を保持するのに苦労する。 この問題では、ネットワークがモデルの学習中に、長いシーケンスの前のステップからの情報を保持するのに苦労する。 として知られる従来のRNNの重大な限界に対処する。独自のゲーティング・メカニズムを利用することで、LSTMは情報を選択的に記憶または忘却することができる。 は、情報を選択的に記憶したり忘れたりすることができる。 ディープラーニング(DL)の歴史における基礎技術となっている。

LSTMの仕組み

LSTMの核となる革新的な点はセル状態である。 LSTMの革新の核心は、セル状態がベルトコンベヤーと表現されることである。この構造により、情報はベルトコンベア この構造により、情報はベルトコンベヤーに沿って変化することなく流れ、長いシーケンスでも文脈を維持することができる。LSTMは3つの異なるゲートを使ってこの流れを制御する。 通常、シグモイド・ニューラル・ネットワーク層と ポイント単位の乗算演算:

  • 忘却ゲート:前のセル状態から、どの情報がもはや関連性がなく、破棄されるべきかを決定する。 を決定する。
  • 入力ゲート:入力ゲート:現在の入力ステップからの新しい情報のうち、どの情報がセル状態 に保存するのに十分重要かを決定する。 セル状態に格納するのに十分な重要な情報であるかを決定する。
  • 出力ゲート:セル状態のどの部分を次の隠れた状態に出力するかを制御する。 を使うことが多い。 tanh(双曲線正接)アクティベーションを使用することが多い。 値をスケーリングする。

この洗練された設計により、LSTMは関連情報と必要な時点とのギャップが大きいタスクを処理することができる。 クリストファー・オラの有名な「LSTMを理解するためのガイドブック」で視覚化されている概念だ。 視覚化されている。

実際のアプリケーション

LSTMは人工知能(AI)の進歩に貢献してきた 人工知能 を発展させるのに役立ってきた。時間的ダイナミクスを理解するその能力は、以下のような用途に最適です:

  1. 自然言語処理(NLP):機械翻訳のようなタスクでは 機械翻訳のようなタスクでは、LSTMはある言語の文を取り込み LSTMは、ある言語で書かれた文章を取り込み、別の言語で書かれた文章を生成することができる。 翻訳を生成することができる。同様に センチメント分析では、モデルは 段落の最初にある修飾語(例:「not」)が、最後にある単語(例:「recommended」)をどのように否定するかを理解することができる、 「を否定します。)
  2. ビデオ解析と行動認識:一方 ようなコンピュータビジョン(CV)モデルは YOLO11のようなコンピュータ・ビジョン(CV)モデルは、静止画像内のオブジェクトの検出に優れている。 によって抽出された画像特徴のシーケンスを処理できる。 畳み込みニューラルネットワーク(CNN) LSTMは、畳み込みニューラルネットワーク(CNN)によって抽出された画像特徴のシーケンスを処理し、"走る "や "手を振る "といった、時間の経過に伴う行動を認識する。この組み合わせは 空間的検出と時間的映像理解のギャップを埋める。 時間的映像理解のギャップを埋める。

関連アーキテクチャとの比較

LSTMを類似のシーケンスモデリング技術と区別することは有益である:

  • RNNとLSTMの比較:標準的なRNNは、単純な繰り返し構造(通常は1つのtanh層)を持つ。 勾配が不安定なため、長距離依存関係を学習できない。LSTMはこれを解決するためにマルチゲート構造を導入する。 これを解決する。
  • GRUとLSTMの比較 ゲーテッド・リカレント・ユニット(GRU)は LSTMを単純化したもので、忘却ゲートと入力ゲートを1つの更新ゲートに統合している。GRUは 計算効率が高く、多くの場合同等の性能を発揮するため、計算リソースが限られている場合 計算リソースが限られている場合によく使われる。
  • TransformerとLSTMの比較:現代のLSTM トランスフォーマー 自己注意メカニズムに依存する最新の LSTMに取って代わった。Transformerはシーケンス全体を逐次的ではなく並列的に処理するため、GPUでの学習が高速になり、LSTMの処理能力が向上する。 GPUでのトレーニングの高速化と、グローバルコンテキストの扱いの改善 グローバル・コンテキストの取り扱いが向上する。

実施例

次の例は、標準的なLSTMレイヤーを定義する方法を示している。 PyTorch.このスニペットはレイヤーを初期化し、ダミーのバッチを処理します。 このワークフローは時系列分析で一般的です。 時系列分析で一般的なワークフローです。

import torch
import torch.nn as nn

# Define an LSTM layer: input_dim=10, hidden_dim=20, num_layers=2
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Create dummy input: (batch_size=5, sequence_length=3, input_dim=10)
input_seq = torch.randn(5, 3, 10)

# Forward pass: Returns output and (hidden_state, cell_state)
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([5, 3, 20])

その他の資料

LSTMについてさらに詳しく知りたい方は、HochreiterとSchmidhuberによる研究論文 HochreiterとSchmidhuberによる研究論文を参照れたい。 を参照されたい。実用的な実装に興味のある方は PyTorch LSTM ドキュメントと TensorFlow Keras LSTM APIがあります。 が包括的なガイドを提供しています。さらに スタンフォード大学が提供するNLPのコースでは、シーケンスモデルの理論的な裏付けを詳しく解説しています。 また、スタンフォード大学のNLPのコースでは、シーケンスモデルの理論的な基礎を深く掘り下げています。これらのコンポーネントを理解することは、複雑なAIシステムを使いこなす上で非常に重要だ、 単純な音声テキストエンジンから高度な 自律型エージェントまで

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加