遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Sequence-to-Sequence Models

了解序列到序列 (Seq2Seq) 模型如何赋能翻译和 NLP。探索编码器-解码器架构、Transformer 以及与 Ultralytics YOLO26 的集成。

序列到序列 (Seq2Seq) 模型是一类强大的机器学习架构,旨在将一个领域的序列转换为另一个领域的序列。与输入和输出大小固定的标准图像分类任务不同,Seq2Seq 模型擅长处理长度可变的输入和输出。这种灵活性使其成为许多现代自然语言处理 (NLP) 应用(如翻译和摘要)的基石,在这些应用中,输入句子的长度并不一定决定输出句子的长度。

Link to this section核心架构与功能#

Seq2Seq 模型的基本结构依赖于编码器-解码器框架。该架构将模型拆分为两个协同工作的核心组件,以处理序列数据。

  • 编码器: 该组件一次处理输入序列的一个元素(例如,一个英语句子或一系列音频帧)。它将信息压缩为固定长度的上下文向量,也称为隐藏状态。在传统架构中,编码器通常使用循环神经网络 (RNN)长短期记忆 (LSTM) 网络构建,这些网络旨在跨时间步保留信息。
  • 解码器: 输入完成编码后,解码器会获取上下文向量并逐步预测输出序列(例如,相应的法语句子)。它利用上一步的预测来影响下一步,从而确保语法和上下文的连贯性。

虽然早期版本严重依赖 RNN,但现代 Seq2Seq 模型主要使用 Transformer 架构。Transformer 利用注意力机制,使模型能够“关注”输入序列中的特定部分,而不受其与当前步骤距离的影响,正如开创性论文Attention Is All You Need中所述,这显著提高了长序列的处理性能。

Link to this section实际应用#

Seq2Seq 模型的通用性使其能够架起文本分析与计算机视觉之间的桥梁,实现复杂的多模态交互。

  • 机器翻译 这或许是最著名的应用,Seq2Seq 模型为谷歌翻译等工具提供支持。模型接受源语言句子并输出目标语言句子,从而流畅地处理语法和句子结构上的差异。
  • 文本摘要 这些模型可以摄取长文档或文章并生成简明扼要的摘要。通过理解输入文本的核心含义,解码器生成一段保留关键信息的较短序列,这是自动新闻聚合至关重要的技术。
  • 图像描述: 通过结合视觉和语言,Seq2Seq 模型可以描述图像内容。卷积神经网络 (CNN) 作为编码器提取视觉特征,而 RNN 作为解码器生成描述性句子。这是多模态模型的一个典型示例。
  • 语音识别 在这些系统中,输入是一系列音频信号帧,输出是一系列文本字符或单词。这项技术构成了 Siri 和 Alexa 等虚拟助手的基础。

Link to this section代码示例:基本构建块#

虽然高级框架抽象了许多复杂性,但理解底层机制非常有帮助。以下代码展示了 PyTorch 中的基本 LSTM 层,它通常在传统 Seq2Seq 模型的编码器或解码器中充当循环单元。

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

Link to this section与相关概念的比较#

区分 Seq2Seq 模型与其他架构对于了解其特定用途非常重要。

  • 与标准分类的对比: 标准分类器(例如用于基础图像分类的分类器)将单个输入(如图像)映射到单个类标签。相比之下,Seq2Seq 模型将序列映射为序列,从而允许输出长度可变。
  • 与目标检测的对比:Ultralytics YOLO26 这样的模型专注于单帧内的空间检测,识别对象及其位置。虽然 YOLO 在结构上处理图像,但 Seq2Seq 模型在时间上处理数据。不过,这些领域在目标跟踪等任务中存在重叠,识别视频帧中的对象轨迹涉及顺序数据分析。
  • 与 Transformer 的对比: Transformer 架构是 Seq2Seq 的现代进化版。原始 Seq2Seq 模型严重依赖 RNN 和门控循环单元 (GRU),而 Transformer 利用自注意力机制并行处理序列,提供了显著的速度和精度提升。

Link to this section在 AI 生态系统中的重要性#

Seq2Seq 模型从根本上改变了机器与人类语言和时间数据交互的方式。它们处理序列依赖数据的能力,促成了复杂的聊天机器人、自动翻译器和代码生成工具的诞生。对于使用训练这些模型所需的大型数据集的开发者来说,使用 Ultralytics Platform 可以简化数据管理和模型部署的工作流程。随着研究向生成式 AI 迈进,序列建模的原则仍然是开发大语言模型 (LLM) 和高级视频理解系统的核心。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅