ヨロビジョン深圳
深セン
今すぐ参加
用語集

Long Short-Term Memory(LSTM)

Long Short-Term Memory (LSTM)ネットワークが、シーケンシャルデータの処理、RNNの制限の克服、NLPや予測などのAIタスクの推進において、どのように優れているかを発見してください。

Long Short-Term Memory(LSTM)は、データの長いシーケンスにわたるパターンを学習し、記憶するように設計された、特殊なタイプのリカレントニューラルネットワーク(RNN)アーキテクチャです。勾配消失問題により長期依存関係に苦労する標準的なRNNとは異なり、LSTMは独自のゲーティングメカニズムを使用して情報の流れを調整します。これにより、ネットワークは関連性のないデータを破棄しながら、重要な情報を長期間選択的に保持できるため、最新の深層学習、特に自然言語処理(NLP)の基礎となっています。HochreiterとSchmidhuberによる基礎的なLSTM論文は、この強力なテクノロジーの基礎を築きました。

LSTMの仕組み

LSTMの能力の鍵は、その内部構造にあり、これには「セル状態」といくつかの「ゲート」が含まれます。セル状態はコンベヤーベルトとして機能し、関連情報をシーケンスを通して運びます。ゲート(入力ゲート、忘却ゲート、出力ゲート)は、セル状態に追加、削除、または読み取られる情報を制御するニューラルネットワークです。

  • 忘却ゲート: 前のセル状態からのどの情報を破棄するかを決定します。
  • 入力ゲート: 現在の入力からのどの新しい情報をセル状態に保存するかを決定します。
  • 出力ゲート: 現在のタイムステップにおける出力を生成するために、セル状態からのどの情報を使用するかを制御します。

このゲーティング構造により、LSTMはテキストや時系列データのようなシーケンシャルデータを理解するための重要な機能である、長期にわたるコンテキストを維持できます。詳細な可視化については、人気のUnderstanding LSTMsのブログ記事をご覧ください。

実際のアプリケーション

LSTMは、シーケンシャルデータを扱う多くの分野で успешно に適用されています。

  1. 機械翻訳: LSTMは、ある言語の文を単語ごとに処理し、内部表現(理解)を構築し、別の言語で翻訳を生成できます。これには、一貫性のある翻訳を生成するために、文の最初からのコンテキストを記憶する必要があります。Google翻訳は、Transformerアーキテクチャに移行する前に、歴史的にこの目的のためにLSTMベースのモデルを使用していました。
  2. 音声認識: 音声テキスト変換アプリケーションでは、LSTM は音声特徴のシーケンスを処理して、話された単語を書き起こすことができます。モデルは、現在の音を正しく解釈するために、以前の音を考慮する必要があり、時間的な依存関係を処理する能力を示しています。多くの最新のバーチャルアシスタントがこのテクノロジーに依存しています。

他の系列モデルとの比較

LSTMは、シーケンシャルデータに対するより広範なモデルファミリーの一部です。

  • Gated Recurrent Unit(GRU): GRUは、LSTMを簡略化したものです。忘却ゲートと入力ゲートを単一の「更新ゲート」に結合し、セル状態と隠れ状態をマージします。これにより、GRUは計算効率が向上し、トレーニングが高速になりますが、一部のタスクではLSTMよりも表現力がわずかに劣る場合があります。
  • 隠れマルコフモデル(HMM): HMMは、LSTMよりも複雑でない確率モデルです。より単純なシーケンスのタスクには役立ちますが、LSTMや他のニューラルネットワークが捉えることができる複雑な長距離依存性を捉えることはできません。
  • Transformer: 自己注意メカニズムに依存するTransformerアーキテクチャは、多くのNLPタスクで最先端技術としてLSTMsを大きく上回っています。LSTMsの逐次処理とは異なり、Transformersはシーケンスのすべての要素を並行して処理できるため、最新のGPUのようなハードウェアで非常に効率的であり、グローバルな依存関係をより適切に捉えることができます。

実装とツール

LSTMは、PyTorchPyTorch LSTMドキュメントを参照)やTensorFlowTensorFlow LSTMドキュメントを参照)などの一般的な深層学習フレームワークを使用して簡単に実装できます。Ultralyticsは主に物体検出インスタンスセグメンテーションなどのタスク向けのUltralytics YOLOのようなコンピュータビジョン(CV)モデルに焦点を当てていますが、特にビデオ理解や画像キャプションのようなタスクのためにNLPとCVの橋渡しを研究する際には、シーケンスモデルを理解することが重要です。Ultralyticsドキュメントで、さまざまなMLモデルと概念をさらに詳しく調べることができます。さまざまなモデルのトレーニングとデプロイメントの管理は、Ultralytics HUBのようなプラットフォームを使用して効率化できます。DeepLearning.AIのようなリソースでは、LSTMを含むシーケンスモデルを網羅したコースを提供しています。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました