敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

序列到序列模型

了解序列到序列模型如何转换输入到输出序列,从而为翻译、聊天机器人和语音识别等 AI 任务提供支持。

序列到序列 (Seq2Seq) 模型是一类深度学习模型,旨在将输入序列转换为输出序列,其中输入和输出的长度可以不同。 这种灵活性使其在自然语言处理 (NLP)及其他领域的各种任务中非常强大。 核心思想由GoogleYoshua Bengio实验室的研究人员在论文中提出,彻底改变了机器翻译等领域。

Seq2Seq 模型如何工作

Seq2Seq模型建立在编码器-解码器架构之上。这种结构使模型能够有效地处理变长序列。

  • 编码器: 该组件处理整个输入序列,例如英语句子。它一次读取序列的一个元素(例如,逐字逐句),并将信息压缩成一个固定长度的数值表示,称为上下文向量或“思想向量”。传统上,编码器是一个循环神经网络 (RNN)或更高级的变体,如长短期记忆 (LSTM),它擅长捕获顺序信息。

  • 解码器: 该组件将来自编码器的上下文向量作为其初始输入。它的工作是每次生成一个元素的输出序列。例如,在翻译任务中,它将逐字生成翻译后的句子。来自每个步骤的输出被反馈到下一步的解码器中,使其能够生成连贯的序列。这个过程一直持续到产生特殊的序列结束标记。显着提高Seq2Seq性能的一项关键创新是注意力机制,它允许解码器在生成输出时回顾原始输入序列的不同部分。

Seq2Seq 模型的应用

将可变长度的输入映射到可变长度的输出的能力使 Seq2Seq 模型具有高度的通用性。

  • 机器翻译: 这是典型的应用。模型可以获取一种语言的句子(例如,“你好吗?”),并将其翻译成另一种语言(例如,“Wie geht es Ihnen?”)。Google 翻译 等服务已大量使用这些原则。
  • 文本摘要: Seq2Seq 模型可以读取长篇文章或文档(输入序列)并生成简洁的摘要(输出序列)。这对于将大量文本浓缩成易于理解的见解非常有用。
  • 聊天机器人和会话式 AI: 可以训练模型来生成与用户的查询或陈述(输入序列)相关的上下文响应(输出序列)。
  • 图像字幕: 虽然这涉及到计算机视觉,但原理是相似的。CNN 充当编码器来处理图像并创建上下文向量,然后解码器使用该向量来生成描述性文本序列。这是一个多模态模型的示例。

Seq2Seq 与其他架构的比较

虽然基于循环神经网络(RNN)的 Seq2Seq 模型具有开创性,但该领域已不断发展:

  • 标准 RNN: 通常将序列映射到相同长度的序列或对整个序列进行分类,缺乏用于可变输出长度的编码器-解码器结构的灵活性。
  • Transformers: 现在主导着许多以前由基于RNN的Seq2Seq模型处理的NLP任务。它们使用自注意力和位置编码代替递归,从而可以更好地并行化并更有效地捕获远程依赖关系。然而,底层编码器-解码器概念仍然是许多基于Transformer的模型的中心。百度的RT-DETR等模型由Ultralytics支持,集成了Transformer组件用于目标检测
  • CNN: 主要用于网格状数据,例如图像(例如,在 Ultralytics YOLO 模型中用于检测和分割),但有时也适用于序列任务。

虽然 Seq2Seq 通常指的是基于 RNN 的编码器-解码器结构,但使用中间表示将输入序列映射到输出序列的一般原则仍然是许多现代架构的核心。诸如 PyTorchTensorFlow 之类的工具为实现传统和现代序列模型提供了构建块。使用诸如 Ultralytics HUB 之类的平台可以简化训练过程,从而简化整个模型部署流程。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板