遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Long Short-Term Memory (LSTM)

探索长短期记忆 (LSTM) 网络。了解 LSTM 如何解决 RNN 在时间序列、NLP 和视频分析任务中的梯度消失问题。

长短期记忆网络 (LSTM) 是一种专门的 循环神经网络 (RNN) 架构,能够学习序列预测问题中的顺序依赖性。与标准前馈神经网络不同,LSTM 具有反馈连接,使它们不仅能处理单个数据点(如图像),还能处理完整的数据序列(如语音或视频)。这种能力使它们非常适合那些需要通过早期输入提供的上下文来理解当前数据的任务,从而解决了传统 RNN 的“短期记忆”限制。

Link to this section标准 RNN 的问题#

要理解 LSTM 的创新之处,了解基础 循环神经网络 面临的挑战是有帮助的。虽然 RNN 旨在处理顺序信息,但由于 梯度消失 问题,它们在处理长数据序列时表现不佳。当网络在时间上进行反向传播时,用于更新网络权重的梯度值会呈指数级变小,从而有效阻止网络学习远距离事件之间的关联。这意味着标准 RNN 可能会记得上一句话中的某个词,却忘了三个段落前设定的上下文。LSTM 通过引入更复杂的内部结构来解决这个问题,能够维持更长时期的 上下文窗口

Link to this sectionLSTM 的工作原理#

LSTM 的核心概念是细胞状态,它通常被描述为一条贯穿整个网络链的传送带。这种状态允许信息沿其不加改变地流动,从而保存长期依赖关系。网络通过称为“门”的结构来决定从该细胞状态中存储、更新或丢弃哪些信息。

  • 遗忘门: 该机制决定哪些信息不再相关并应从细胞状态中移除。例如,如果语言模型遇到一个新的主语,它可能会“忘记”上一个主语的性别。
  • 输入门: 该门决定哪些新信息足够重要,可以存储在细胞状态中。
  • 输出门: 最后,该门控制内部状态的哪些部分应该输出到下一个隐藏状态,并用于即时预测。

通过调节这种信息流,LSTM 可以跨越超过 1,000 个步骤的时间滞后,在需要 时间序列分析 的任务上远远优于传统的 RNN。

Link to this section实际应用#

在过去十年中,LSTM 推动了 深度学习 的许多重大突破。以下是它们应用的两个突出示例:

  • 翻译中的序列到序列建模: LSTM 是 机器翻译 系统的基础。在此架构中,第一个 LSTM(编码器)处理一种语言(例如英语)的输入句子并将其压缩为上下文向量。第二个 LSTM(解码器)随后使用此向量生成另一种语言(例如法语)的翻译。这种处理不同长度输入和输出序列的能力对于 自然语言处理 (NLP) 至关重要。
  • 视频分析与活动识别: 虽然像 ResNet-50 这样的卷积神经网络 (CNN) 擅长识别静态图像中的对象,但它们缺乏时间感。通过将 CNN 与 LSTM 结合,AI 系统可以执行视频流中的 动作识别。CNN 从每一帧中提取特征,而 LSTM 则分析这些特征序列,以确定某人是在行走、跑步还是跌倒。

Link to this section将 LSTM 与计算机视觉集成#

在现代 计算机视觉 中,LSTM 常与强大的特征提取器配合使用。例如,你可以使用 YOLO 模型检测单帧中的对象,并使用 LSTM 来跟踪它们的轨迹或预测未来的运动。

以下是一个使用 torch 定义简单 LSTM 的概念示例,它可以处理从视频流中提取的特征向量序列:

import torch
import torch.nn as nn

# Define an LSTM model for processing sequential video features
# Input size: 512 (e.g., features from a CNN), Hidden size: 128
lstm_model = nn.LSTM(input_size=512, hidden_size=128, num_layers=2, batch_first=True)

# Simulate a batch of video sequences: 8 videos, 10 frames each, 512 features per frame
video_features = torch.randn(8, 10, 512)

# Pass the sequence through the LSTM
output, (hidden_state, cell_state) = lstm_model(video_features)

print(f"Output shape: {output.shape}")  # Shape: [8, 10, 128]
print("LSTM successfully processed the temporal sequence.")

Link to this section相关概念与区别#

区分 LSTM 与其他序列处理架构是很有帮助的:

  • LSTM vs. GRU: The Gated Recurrent Unit (GRU) is a simplified variation of the LSTM. GRUs combine the forget and input gates into a single "update gate" and merge the cell state and hidden state. This makes GRUs computationally more efficient and faster to train, though LSTMs may still outperform them on larger, more complex datasets.
  • LSTM vs. Transformer: Transformer 架构依靠 自注意力 (self-attention) 机制而非循环,在 NLP 任务(如 GPT-4 执行的任务)中已在很大程度上取代了 LSTM。Transformer 可以并行处理整个序列,而非按顺序处理,从而允许在海量数据集上进行更快的训练。然而,在数据有限或有特定时间序列限制的情况下,若无需注意力机制的额外开销,LSTM 依然具有相关性。

Link to this section演进与未来#

虽然 注意力机制 已成为 生成式 AI 的核心,但 LSTM 在轻量级应用中仍然是一个稳健的选择,特别是在计算资源受限的 边缘 AI 环境中。研究人员继续探索混合架构,将 LSTM 的内存效率与现代 目标检测 系统的表现能力相结合。

对于那些希望管理数据集以用于训练序列模型或复杂视觉任务的用户,Ultralytics 平台 提供了全面的标注和数据集管理工具。此外,理解 LSTM 的工作原理也为掌握 自动驾驶 和机器人技术中使用的更高级时间模型提供了坚实基础。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅