深圳Yolo 视觉
深圳
立即加入
词汇表

长短期记忆网络 (LSTM)

探索长短期记忆网络 (LSTM)。了解LSTM如何解决RNN中梯度消失问题,适用于时间序列、NLP和视频分析任务。

长短期记忆网络 (LSTM) 是一种特殊的 循环神经网络 (RNN) 架构,能够学习序列预测问题中的顺序依赖性。与标准前馈神经网络不同,LSTM 具有反馈连接,使其不仅能够处理单个数据点(例如图像),还能处理整个数据序列(例如语音或视频)。这种能力使其特别适用于早期输入的上下文对于理解当前数据至关重要的任务,解决了传统 RNN 的“短期记忆”限制。

标准 RNN 的问题

为了理解 LSTM 的创新之处,有必要审视基本 循环神经网络 所面临的挑战。虽然 RNN 旨在处理序列信息,但由于 梯度消失 问题,它们难以处理长数据序列。当网络随时间反向传播时,梯度——用于更新网络权重的数值——会呈指数级减小,从而有效地阻止网络学习遥远事件之间的连接。这意味着标准的 RNN 可能会记住前一句中的一个词,但会忘记三段前建立的上下文。LSTM 明确设计用于解决此问题,它引入了更复杂的内部结构,可以在更长的时间内保持 上下文窗口

LSTM 的工作原理

LSTM的核心概念是细胞状态,它常被描述为贯穿整个网络链的传送带。这种状态允许信息在其上传输而不发生改变,从而保留了长期依赖。网络通过称为门控单元的结构,决定从该细胞状态中存储、更新或丢弃哪些信息。

  • 遗忘门:这种机制决定哪些信息不再相关,应该从细胞状态中移除。例如,如果一个语言模型遇到一个新主题,它可能会“忘记”前一个主题的性别。
  • 输入门:此门决定哪些新信息足够重要,可以存储到细胞状态中。
  • 输出门:最后,此门控制内部状态的哪些部分应输出到下一个隐藏状态,并用于即时预测。

通过调节这种信息流,LSTM可以弥合超过1,000步的时间滞后,在需要时间序列分析的任务上远远优于传统RNN。

实际应用

在过去十年中,LSTM推动了深度学习领域的许多重大突破。以下是其应用的两个突出示例:

  • 翻译中的序列到序列建模: LSTM 是 机器翻译 系统的基础。在这种架构中,一个 LSTM(编码器)处理一种语言(例如 English)的输入句子,并将其压缩成一个上下文向量。第二个 LSTM(解码器)然后使用此向量生成另一种语言(例如法语)的翻译。这种处理不同长度输入和输出序列的能力对于 自然语言处理 (NLP) 至关重要。
  • 视频分析与活动识别: 尽管像 ResNet-50 这样的卷积神经网络 (CNN) 在识别静态图像中的物体方面表现出色,但它们缺乏时间感。通过将 CNN 与 LSTM 结合,AI 系统可以在视频流中执行 动作识别。CNN 从每一帧中提取特征,LSTM 分析这些特征的序列,以确定一个人是在行走、跑步还是跌倒。

将LSTM与计算机视觉集成

在现代计算机视觉中,LSTM常与强大的特征提取器一同使用。例如,您可以使用YOLO模型来detect单个帧中的物体,并使用LSTM来track它们的轨迹或预测未来的运动。

这是一个概念性示例,使用 torch 定义一个简单的 LSTM,可以处理从视频流中提取的特征向量序列:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

相关概念和区别

区分LSTM与其他序列处理架构很有帮助:

  • LSTM与GRU:门控循环单元(GRU)是LSTM的一种简化变体。GRU将遗忘门和输入门合并为一个“更新门”,并融合了细胞状态和隐藏状态。这使得GRU在计算上更高效,训练速度更快,尽管LSTM在更大、更复杂的数据集上可能仍然优于它们。
  • LSTM与Transformer:依赖于自注意力机制而非循环的Transformer架构,在GPT-4等执行的NLP任务中已基本取代了LSTM。Transformer可以并行而非顺序地处理整个序列,从而在海量数据集上实现更快的训练。然而,在数据有限或存在特定时间序列约束,且注意力机制的开销不必要的场景中,LSTM仍然具有相关性。

演进与未来

尽管注意力机制生成式AI中占据了中心地位,但LSTM仍然是轻量级应用的稳健选择,特别是在计算资源受限的边缘AI环境中。研究人员继续探索结合LSTM内存效率与现代目标检测系统表示能力的混合架构。

对于那些希望管理用于训练序列模型或复杂视觉任务的数据集的用户,Ultralytics Platform提供了全面的标注和数据集管理工具。此外,理解LSTM的工作原理为掌握自动驾驶汽车和机器人技术中使用的更高级时序模型奠定了坚实基础。

让我们一起共建AI的未来!

开启您的机器学习未来之旅