Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles séquence à séquence

Découvrez comment les modèles séquence à séquence transforment les séquences d'entrée en séquences de sortie, alimentant les tâches d'IA telles que la traduction, les chatbots et la reconnaissance vocale.

Les modèles de séquence à séquence (Seq2Seq) constituent une classe fondamentale d'architectures d'apprentissage profond (deep learning) conçues pour transformer les données en information. architectures d'apprentissage profond conçues pour transformer une séquence d'entrée de longueur fixe en une séquence de sortie de longueur fixe, où les longueurs de l'entrée et de la sortie peuvent varier indépendamment. indépendamment. Cette capacité les rend essentiels pour résoudre des problèmes complexes où la relation entre l'entrée et la sortie est séquentielle et non séquentielle. l'entrée et la sortie est séquentielle et non linéaire. Contrairement aux modèles standard qui associent une seule entrée à une seule étiquette, les modèles Seq2Seq excellent dans la résolution de problèmes complexes, Seq2Seq excellent dans la compréhension du contexte au fil du temps, ce qui leur permet d'alimenter de nombreux systèmes de traitement du langage naturel (NLP). traitement du langage naturel (NLP) utilisées quotidiennement, telles que les services de traduction et les assistants vocaux.

L'architecture codeur-décodeur

Le cadre central d'un modèle Seq2Seq repose sur une structure codeur-décodeur, un concept introduit dans des recherches fondamentales telles que le comme l'article sur l'apprentissage de séquence à séquence avec des réseaux neuronaux. Sequence to Sequence Learning with Neural Networks (Apprentissage de séquence à séquence avec des réseaux neuronaux ). Cette Cette architecture divise la tâche en deux phases distinctes : l'encodage du contexte et le décodage des résultats.

  • L'encodeur : Ce composant traite la séquence d'entrée élément par élément (par exemple, les mots d'une phrase ou les images d'une vidéo). images d'une vidéo). Il compresse les informations dans une représentation interne de longueur fixe appelée vecteur de contexte. vecteur de contexte. Traditionnellement, les codeurs sont construits à l'aide de des réseaux neuronaux récurrents (RNN) ou des variantes spécialisées telles que Mémoire à long terme (LSTM) qui sont capables de capturer les dépendances à long terme dans les données.
  • Le décodeur : Une fois l'entrée codée, le décodeur prend le vecteur de contexte et génère la séquence de sortie une étape à la fois. séquence de sortie, étape par étape. Il prédit l'élément suivant de la séquence sur la base des prédictions précédentes et du vecteur de contexte. du vecteur de contexte. Les implémentations avancées utilisent souvent un mécanisme d'attention pour se concentrer dynamiquement sur des parties spécifiques de la séquence d'entrée. parties spécifiques de la séquence d'entrée, atténuant ainsi le goulot d'étranglement de l'information que l'on trouve dans les paires codeur-décodeur de base.

Applications concrètes

La flexibilité des modèles Seq2Seq leur permet d'être appliqués dans divers domaines au-delà de la simple analyse de texte.

  • Traduction automatique: Peut-être l'application la plus célèbre, Seq2Seq l'application la plus connue, Seq2Seq modélise des outils puissants comme Google Translate. Le modèle accepte une phrase dans une langue source (par exemple, l'English) et produit une phrase dans une langue cible (par exemple, l'espagnol), en gérant les différences de grammaire et de structure de la phrase avec fluidité. grammaire et la structure de la phrase.
  • Résumés de textes: Ces modèles modèles peuvent ingérer de longs documents ou articles et générer des résumés concis. En comprenant le sens principal du texte d'entrée, le décodeur produit une séquence plus courte qui conserve les informations clés. du texte d'entrée, le décodeur produit une séquence plus courte qui conserve les informations clés, une technique vitale pour l'agrégation automatisée de nouvelles. technique vitale pour l'agrégation automatique de nouvelles.
  • Légende de l'image : En associant vision par ordinateur et le NLP, un modèle Seq2Seq peut décrire le contenu d'une image. Un réseau neuronal convolutif (CNN) sert d'encodeur pour extraire les caractéristiques visuels, tandis qu'un RNN ou un transformateur sert de décodeur pour générer une phrase descriptive. Il s'agit là d'un exemple de modèle multimodal.
  • Reconnaissance vocale: Dans ces systèmes, l'entrée est une séquence de signaux audio et la sortie une séquence de caractères ou de mots. Dans ces systèmes, l'entrée est une séquence de signaux audio et la sortie une séquence de caractères ou de mots. Cette technologie est à la base les assistants virtuels comme Siri et Alexa.

Comparaison avec des concepts connexes

Il est important de distinguer les modèles Seq2Seq des autres architectures pour comprendre leur utilité spécifique.

  • Vs. Classification standard : Les classificateurs standard, tels que ceux utilisés dans la classification d'images de base, établissent une correspondance entre une entrée unique et une entrée unique. classification d'images de base, associent une entrée unique (comme une image) à une étiquette de classe unique. En revanche, les modèles Seq2Seq mettent en correspondance des séquences avec d'autres séquences, ce qui permet des longueurs de sortie variables. des longueurs de sortie variables.
  • Vs. Détection d'objets : Modèles tels que Ultralytics YOLO11 se concentrent sur la détection spatiale au sein d'une d'une seule image, en identifiant les objets et leur emplacement. Alors que YOLO traite les images de manière structurelle, les modèles Seq2Seq traitent les données dans le temps. Cependant, les domaines se chevauchent dans des tâches telles que le suivi d'objets, où l'identification des trajectoires d'objets sur sur des images vidéo implique une analyse séquentielle des données.
  • Vs. Transformers : L'architecture des transformateurs Transformer est l'évolution moderne de Seq2Seq. Alors que les modèles originaux de Seq2Seq s'appuyaient fortement sur les RNNs et les Gated Recurrent Units (GRU), Transformers utilisent l'auto-attention pour traiter les séquences en parallèle, ce qui permet d'améliorer considérablement la vitesse et la précision. de vitesse et de précision.

Exemple de mise en œuvre

Bien que les modèles Seq2Seq complets pour la traduction soient complexes, les éléments constitutifs sont accessibles via des bibliothèques telles que PyTorch. L'exemple suivant montre comment initialiser un simple encodeur basé sur une LSTM qui pourrait servir de première moitié d'un modèle Seq2Seq.

import torch
import torch.nn as nn

# Initialize an LSTM layer (The Encoder)
# input_size=10 (feature dimension), hidden_size=20 (context vector size)
encoder = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 1, Sequence length 5, Features 10
input_seq = torch.randn(1, 5, 10)

# Forward pass processing the sequence
output, (hidden_state, cell_state) = encoder(input_seq)

# The hidden_state represents the 'context vector' for the sequence
print(f"Context Vector shape: {hidden_state.shape}")
# Output: torch.Size([1, 1, 20])

Pour ceux qui souhaitent explorer des tâches séquentielles dans le domaine de la vision par ordinateur, telles que le suivi d'objets à travers des images vidéo, l'exploration des modes de suivi d'Ultralytics permet d'obtenir des informations sur l'état de l'environnement. vidéo, l'exploration des modes de suivi d'Ultralytics constitue un point d'entrée pratique. Pour approfondir votre compréhension des mécanismes sous-jacents, le cours Stanford CS224n NLP offre une documentation complète sur les mécanismes de suivi. Stanford CS224n NLP propose des documents complets sur la modélisation des séquences et l'apprentissage profond. la modélisation des séquences et l'apprentissage profond.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant