深圳Yolo 视觉
深圳
立即加入
词汇表

序列到序列模型

了解序列到序列 (Seq2Seq) 模型如何驱动翻译和自然语言处理 (NLP)。探索编码器-解码器架构、Transformers以及与Ultralytics YOLO26的集成。

序列到序列 (Seq2Seq) 模型是一类强大的 机器学习 架构,旨在将一个领域的序列转换为另一个领域的序列。与输入和输出大小固定的标准 图像分类 任务不同,Seq2Seq 模型擅长处理可变长度的输入和输出。这种灵活性 使其成为许多现代 自然语言处理 (NLP) 应用(如翻译和摘要)的支柱,在这些应用中,输入句子的长度不一定决定输出句子的长度。

核心架构和功能

Seq2Seq 模型的基本结构依赖于 编码器-解码器框架。这种架构将 模型分为两个主要组件,它们协同工作以处理序列数据。

  • 编码器:此组件逐个元素地处理输入序列(例如,一个English句子或一系列音频帧)。它将信息压缩成一个固定长度的上下文向量,也称为隐藏状态。在传统架构中,编码器通常使用循环神经网络 (RNN)长短期记忆 (LSTM)网络构建,这些网络旨在随时间步保留信息。
  • 解码器:一旦输入被编码,解码器就会接收上下文向量并逐步预测输出序列(例如,相应的法语句子)。它利用先前的预测来影响下一个预测,确保语法和上下文的连贯性。

尽管早期版本严重依赖 RNN,但现代 Seq2Seq 模型主要使用 Transformer 架构。Transformer 利用 注意力机制,这使得模型能够“关注”输入序列的特定部分,无论它们与当前步骤的距离如何,从而显著提高了长序列的性能,正如开创性论文 Attention Is All You Need 中所详述的。

实际应用

Seq2Seq 模型的通用性使其能够弥合文本分析与 计算机视觉 之间的鸿沟,从而实现复杂的多模态 交互。

  • 机器翻译: 作为最著名的应用之一,Seq2Seq 模型为 Google Translate 等工具提供支持。该模型接受源语言句子并输出目标语言句子,流畅处理语法和句子结构差异。
  • 文本摘要这些 这些模型可以接收长文档或文章,并生成简明摘要。通过理解输入文本的核心含义 通过理解输入文本的核心含义,解码器能生成保留关键信息的较短序列,这是一种对自动新闻聚合至关重要的技术。 自动新闻聚合的重要技术。
  • 图像字幕生成: 通过结合视觉和语言,Seq2Seq 模型可以描述图像内容。卷积神经网络 (CNN) 作为编码器提取视觉特征,而 RNN 作为解码器生成描述性句子。这是 多模态模型 的一个典型示例。
  • 语音识别在这些系统中 系统中,输入是一串音频信号帧,输出是一串文本字符或单词。 这项技术是 Siri 和 Alexa 等虚拟助手

代码示例:基本构建块

尽管高级框架抽象了大部分复杂性,但理解其底层机制仍然很有帮助。以下代码演示了PyTorch中的一个基本LSTM层,它通常作为传统Seq2Seq模型编码器或解码器中的循环单元。

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

与相关概念的比较

必须将 Seq2Seq 模型与其他架构区分开来,以了解它们的具体用途。

  • Vs.标准分类:标准分类器,例如用于基本 图像分类中使用的分类器。 (图像)映射到一个单一的类标签。相比之下,Seq2Seq 模型将序列映射到序列,允许 输出长度可变。
  • 对比目标 detect:Ultralytics YOLO26 这样的模型专注于单帧内的空间 detect,识别物体及其位置。尽管 YOLO 以结构化方式处理图像,但 Seq2Seq 模型以时间序列方式处理数据。然而,在诸如 目标 track 等任务中,领域存在重叠,这些任务涉及对视频帧中物体轨迹的识别,需要进行序列数据分析。
  • Vs.变形金刚变形金刚 Transformer架构是 Seq2Seq。最初的 Seq2Seq 模型在很大程度上依赖于 RNN 和 门控递归单元(GRU)、 Transformer 利用自我注意来并行处理序列,从而显著提高了速度和准确性。 速度和准确性都有显著提高。

在 AI 生态系统中的重要性

Seq2Seq 模型从根本上改变了机器与人类语言和时间数据交互的方式。它们处理 序列相关数据 的能力促成了复杂的聊天机器人、自动化翻译器和代码生成工具的诞生。对于需要使用大型数据集来 train 这些模型的开发者来说,使用 Ultralytics Platform 可以简化数据管理和模型 部署工作流程。随着 生成式 AI 研究的深入,序列建模的原则仍然是 大型语言模型 (LLMs) 和先进 视频理解 系统开发的核心。

让我们一起共建AI的未来!

开启您的机器学习未来之旅