术语表

长短期记忆(LSTM)

了解长短时记忆 (LSTM) 网络如何在处理顺序数据、克服 RNN 限制以及执行 NLP 和预测等人工智能任务方面表现出色。

长短期记忆(LSTM)是一种专门的递归神经网络(RNN)结构,旨在学习和记忆长数据序列的模式。标准 RNN 因梯度消失问题而难以处理长期依赖关系,而 LSTM 则不同,它使用独特的门控机制来调节信息流。这使得网络可以有选择地长时间保留重要信息,同时丢弃无关数据,从而成为现代深度学习的基石,尤其是在自然语言处理(NLP)领域。Hochreiter 和 Schmidhuber 的 LSTM奠基论文为这项强大的技术奠定了基础。

LSTM 如何工作

LSTM 能力的关键在于其内部结构,其中包括一个 "单元态 "和几个 "门"。单元状态就像传送带,将相关信息输送到序列中。门--输入、遗忘和输出--是神经网络,可控制向单元状态添加、删除或读取哪些信息。

  • 遗忘门:决定哪些上一单元状态的信息应被丢弃。
  • 输入门:决定当前输入的哪些新信息应存储在单元状态中。
  • 输出门:控制单元状态中的哪些信息用于生成当前时间步长的输出。

这种门控结构使 LSTM 能够在多个时间步长内保持上下文,这是理解文本或时间序列等序列数据的关键特征。了解 LSTMs》这篇热门博文中提供了详细的可视化说明。

实际应用

LSTM 已成功应用于涉及顺序数据的众多领域。

  1. 机器翻译LSTM 可以逐字处理一种语言的句子,建立内部表征(理解),然后生成另一种语言的翻译。这需要记住句子开头的上下文,以生成连贯的翻译。在过渡到Transformer架构之前,谷歌翻译一直使用基于 LSTM 的模型来实现这一目的。
  2. 语音识别语音到文本应用中,LSTM 可以处理音频特征序列,从而转录口语单词。该模型需要考虑之前的声音才能正确解释当前的声音,这证明了它处理时间依赖性的能力。许多现代虚拟助手都依赖于这项技术。

与其他序列模型的比较

LSTM 是更广泛的序列数据模型系列的一部分。

  • 门控循环单元(GRU)GRU 是 LSTM 的简化版。它将遗忘门和输入门合并为一个 "更新门",并将单元状态和隐藏状态合并。这使得 GRU 的计算效率更高,训练速度更快,但在某些任务中,它们的表现力可能略逊于 LSTM。
  • 隐马尔可夫模型(HMM)HMM 是一种概率模型,没有 LSTM 那么复杂。虽然对较简单的序列任务有用,但它们无法像 LSTM 和其他神经网络那样捕捉复杂的长程依赖关系。
  • 变形器Transformer 架构依赖于一种自我注意机制,在许多 NLP 任务中,它在很大程度上超越了 LSTM,成为最先进的架构。与 LSTM 的顺序处理不同,Transformer 可以并行处理序列中的所有元素,这使得它们在GPU 等现代硬件上非常高效,并能更好地捕捉全局依赖关系。

实施和工具

LSTM 可以通过PyTorch(参见PyTorch LSTM 文档)和TensorFlow(参见TensorFlow LSTM 文档)等流行的深度学习框架轻松实现。虽然 Ultralytics 主要关注计算机视觉(CV)模型,如用于对象检测实例分割等任务的Ultralytics YOLO,但了解序列模型也很有价值,尤其是当研究人员在视频理解或图像字幕等任务中探索NLP 与 CV 之间的桥梁时。您可以在Ultralytics 文档中进一步探索各种 ML 模型和概念。使用Ultralytics HUB 等平台可以简化各种模型的训练和部署管理。DeepLearning.AI等资源提供涵盖序列模型(包括 LSTM)的课程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板