敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

长短期记忆网络 (LSTM)

了解长短期记忆网络 (LSTM) 如何擅长处理序列数据、克服 RNN 局限性并为 NLP 和预测等 AI 任务提供支持。

长短期记忆(LSTM)是一种专门的递归神经网络(RNN)结构,旨在学习和记忆长数据序列的模式。标准 RNN 因梯度消失问题而难以处理长期依赖关系,而 LSTM 则不同,它使用独特的门控机制来调节信息流。这使得网络可以有选择地长时间保留重要信息,同时丢弃无关数据,从而成为现代深度学习的基石,尤其是在自然语言处理(NLP)领域。Hochreiter 和 Schmidhuber 的 LSTM 奠基论文为这项强大的技术奠定了基础。

LSTM 的工作原理

LSTM 能力的关键在于其内部结构,其中包括“单元状态”和几个“门”。单元状态充当传送带,通过序列传递相关信息。输入门、遗忘门和输出门是控制将哪些信息添加到单元状态、从单元状态中删除或从单元状态中读取的神经网络。

  • 遗忘门: 决定应该丢弃先前单元状态中的哪些信息。
  • 输入门: 确定当前输入中的哪些新信息应存储在单元状态中。
  • 输出门: 控制来自单元状态的哪些信息用于生成当前时间步的输出。

这种门控结构使 LSTM 能够在多个时间步长上保持上下文,这对于理解文本或时间序列等顺序数据至关重要。有关详细的可视化,请参阅这篇广受欢迎的Understanding LSTMs 博客文章

实际应用

LSTM 已成功应用于涉及序列数据的众多领域。

  1. 机器翻译:LSTM 可以逐字处理一种语言的句子,建立内部表示(理解),然后生成另一种语言的翻译。这需要记住句子开头的上下文,以生成连贯的翻译。在过渡到Transformer架构之前,谷歌翻译一直使用基于 LSTM 的模型来实现这一目的。
  2. 语音识别:语音到文本应用中,LSTM 可以处理音频特征序列,从而转录口语单词。该模型需要考虑之前的声音才能正确解释当前的声音,这证明了它处理时间依赖性的能力。许多现代虚拟助手都依赖于这项技术。

与其他序列模型的比较

LSTM 是用于序列数据的更广泛模型系列的一部分。

  • 有门路的经常性单位(GRU):门控循环单元(GRU)是 LSTM 的简化版。它将遗忘门和输入门合并为一个 "更新门",并将单元状态和隐藏状态合并。这使得 GRU 的计算效率更高,训练速度更快,但在某些任务中,它们的表现力可能略逊于 LSTM。
  • 隐马尔可夫模型(HMMs):HMM 是一种概率模型,没有 LSTM 那么复杂。虽然对较简单的序列任务有用,但它们无法像 LSTM 和其他神经网络那样捕捉复杂的长程依赖关系。
  • Transformer: Transformer 架构依赖于自注意力机制,已在很大程度上超越 LSTM,成为许多 NLP 任务的先进技术。与 LSTM 的顺序处理不同,Transformer 可以并行处理序列的所有元素,从而使其在现代 GPU 等硬件上高效运行,并更好地捕获全局依赖关系。

实施与工具

可以使用流行的深度学习框架(如 PyTorch(请参阅 PyTorch LSTM 文档)和 TensorFlow(请参阅 TensorFlow LSTM 文档))轻松实现 LSTM。虽然 Ultralytics 主要关注 计算机视觉 (CV) 模型(如 Ultralytics YOLO),用于诸如目标检测实例分割之类的任务,但理解序列模型是有价值的,尤其是在研究探索桥接 NLP 和 CV以用于视频理解或图像字幕等任务时。您可以在 Ultralytics 文档 中进一步探索各种 ML 模型和概念。可以使用诸如 Ultralytics HUB 之类的平台来简化各种模型的训练和部署的管理。DeepLearning.AI 等资源提供涵盖序列模型(包括 LSTM)的课程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板