Modèles séquence à séquence
Explore Sequence-to-Sequence (Seq2Seq) models. Learn how encoder-decoder architectures and Transformers power translation, NLP, and multi-modal AI tasks.
Sequence-to-Sequence (Seq2Seq) models are a powerful class of
machine learning architectures designed to
convert sequences from one domain into sequences in another. Unlike standard
image classification tasks where the input and
output sizes are fixed, Seq2Seq models excel at handling inputs and outputs of variable lengths. This flexibility
makes them the backbone of many modern
natural language processing (NLP)
applications, such as translation and summarization, where the length of the input sentence does not necessarily
dictate the length of the output sentence.
Architecture et fonctionnalité de base
The fundamental structure of a Seq2Seq model relies on the
encoder-decoder framework. This architecture splits the
model into two primary components that work in tandem to process sequential data.
-
The Encoder: This component processes the input sequence (e.g., a sentence in English or a sequence
of audio frames) one element at a time. It compresses the information into a fixed-length context vector, also known
as the hidden state. In traditional architectures, the encoder is often built using
Recurrent Neural Networks (RNN) or
Long Short-Term Memory (LSTM)
networks, which are designed to retain information over time steps.
-
The Decoder: Once the input is encoded, the decoder takes the context vector and predicts the
output sequence (e.g., the corresponding sentence in French) step-by-step. It uses the previous prediction to
influence the next one, ensuring grammatical and contextual continuity.
While early versions relied heavily on RNNs, modern Seq2Seq models predominantly use the
Transformer architecture. Transformers utilize the
attention mechanism, which allows the model to
"pay attention" to specific parts of the input sequence regardless of their distance from the current step,
significantly improving performance on long sequences as detailed in the seminal paper
Attention Is All You Need.
Applications concrètes
The versatility of Seq2Seq models allows them to bridge the gap between text analysis and
computer vision, enabling complex multi-modal
interactions.
-
Machine Translation: Perhaps
the most famous application, Seq2Seq models power tools like
Google Translate. The model accepts a sentence in a source language and outputs a sentence in a target language, handling
differences in grammar and sentence structure fluently.
-
Résumés de textes: Ces modèles
modèles peuvent ingérer de longs documents ou articles et générer des résumés concis. En comprenant le sens principal du texte d'entrée, le décodeur produit une séquence plus courte qui conserve les informations clés.
du texte d'entrée, le décodeur produit une séquence plus courte qui conserve les informations clés, une technique vitale pour l'agrégation automatisée de nouvelles.
technique vitale pour l'agrégation automatique de nouvelles.
-
Légende de l'image : en combinant la vision et le langage, un modèle Seq2Seq peut décrire le contenu d'une
image. Un réseau neuronal convolutif (CNN) agit comme encodeur pour extraire les caractéristiques visuelles, tandis qu'un RNN agit comme
décodeur pour générer une phrase descriptive. Il s'agit d'un excellent exemple de
modèle multimodal.
-
Reconnaissance vocale: Dans ces systèmes, l'entrée est une séquence de signaux audio et la sortie une séquence de caractères ou de mots.
Dans ces systèmes, l'entrée est une séquence de signaux audio et la sortie une séquence de caractères ou de mots.
Cette technologie est à la base
les assistants virtuels comme Siri et Alexa.
Code Example: Basic Building Block
While high-level frameworks abstract much of the complexity, understanding the underlying mechanism is helpful. The
following code demonstrates a basic LSTM layer in PyTorch, which often serves as
the recurrent unit within the encoder or decoder of a traditional Seq2Seq model.
import torch
import torch.nn as nn
# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)
# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)
# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)
print(f"Output shape: {output.shape}") # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}") # Shape: [1, 3, 20]
Comparaison avec des concepts connexes
Il est important de distinguer les modèles Seq2Seq des autres architectures pour comprendre leur utilité spécifique.
-
Vs. Classification standard : Les classificateurs standard, tels que ceux utilisés dans la classification d'images de base, établissent une correspondance entre une entrée unique et une entrée unique.
classification d'images de base, associent une entrée unique
(comme une image) à une étiquette de classe unique. En revanche, les modèles Seq2Seq mettent en correspondance des séquences avec d'autres séquences, ce qui permet des longueurs de sortie variables.
des longueurs de sortie variables.
-
Vs. Détection d'objets : les modèles tels que
Ultralytics se concentrent sur la détection spatiale dans une
seule image, identifiant les objets et leur emplacement. Alors que YOLO les images de manière structurelle, les modèles Seq2Seq
traitent les données de manière temporelle. Cependant, les domaines se chevauchent dans des tâches telles que le
suivi d'objets, où l'identification des trajectoires d'objets sur des
images vidéo implique une analyse séquentielle des données.
-
Vs. Transformers : L'architecture des transformateurs
Transformer est l'évolution moderne de
Seq2Seq. Alors que les modèles originaux de Seq2Seq s'appuyaient fortement sur les RNNs et les
Gated Recurrent Units (GRU),
Transformers utilisent l'auto-attention pour traiter les séquences en parallèle, ce qui permet d'améliorer considérablement la vitesse et la précision.
de vitesse et de précision.
Importance in the AI Ecosystem
Seq2Seq models have fundamentally changed how machines interact with human language and temporal data. Their ability
to handle sequence-dependent data has enabled the
creation of sophisticated chatbots, automated translators, and code generation tools. For developers working with
large datasets required to train these models, using the
Ultralytics Platform can streamline data management and model
deployment workflows. As research progresses into
Generative AI, the principles of sequence modeling
remain central to the development of
Large Language Models (LLMs) and advanced
video understanding systems.