Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Modèles séquence à séquence

Découvrez comment les modèles séquence à séquence transforment les séquences d'entrée en séquences de sortie, alimentant les tâches d'IA telles que la traduction, les chatbots et la reconnaissance vocale.

Les modèles Sequence-to-Sequence (Seq2Seq) sont une classe de modèles d'apprentissage profond conçus pour transformer une séquence d'entrée en une séquence de sortie, où les longueurs de l'entrée et de la sortie peuvent différer. Cette flexibilité les rend exceptionnellement puissants pour un large éventail de tâches dans le domaine du traitement automatique du langage naturel (TALN) et au-delà. L'idée de base a été introduite dans des articles de chercheurs de Google et du laboratoire de Yoshua Bengio, révolutionnant des domaines tels que la traduction automatique.

Fonctionnement des modèles Seq2Seq

Les modèles Seq2Seq sont construits sur une architecture encodeur-décodeur. Cette structure permet au modèle de gérer efficacement les séquences de longueur variable.

  • L'encodeur : Ce composant traite l'ensemble de la séquence d'entrée, telle qu'une phrase en anglais. Il lit la séquence un élément à la fois (par exemple, mot par mot) et compresse les informations dans une représentation numérique de longueur fixe appelée vecteur de contexte ou « vecteur de pensée ». Traditionnellement, l'encodeur est un réseau neuronal récurrent (RNN) ou une variante plus avancée comme la mémoire à long terme (LSTM), qui est apte à capturer des informations séquentielles.

  • Le décodeur : Ce composant prend le vecteur de contexte de l'encodeur comme entrée initiale. Son travail consiste à générer la séquence de sortie un élément à la fois. Par exemple, dans une tâche de traduction, il générerait la phrase traduite mot par mot. La sortie de chaque étape est réinjectée dans le décodeur à l'étape suivante, ce qui lui permet de générer une séquence cohérente. Ce processus se poursuit jusqu'à ce qu'un jeton spécial de fin de séquence soit produit. Une innovation clé qui a considérablement amélioré les performances de Seq2Seq est le mécanisme d'attention, qui permet au décodeur de revenir sur différentes parties de la séquence d'entrée originale lors de la génération de la sortie.

Applications des modèles Seq2Seq

La capacité de mapper des entrées de longueur variable à des sorties de longueur variable rend les modèles Seq2Seq très polyvalents.

  • Traduction automatique: C'est l'application par excellence. Un modèle peut prendre une phrase dans une langue (par exemple, "Comment allez-vous ?") et la traduire dans une autre (par exemple, "Wie geht es Ihnen ?"). Les services comme Google Traduction ont largement utilisé ces principes.
  • Résumé de texte : Un modèle Seq2Seq peut lire un long article ou document (séquence d'entrée) et générer un résumé concis (séquence de sortie). Ceci est utile pour condenser de grands volumes de texte en informations digestes.
  • Chatbots et IA conversationnelle : Les modèles peuvent être entraînés pour générer une réponse pertinente et contextuelle (séquence de sortie) à la requête ou à la déclaration d'un utilisateur (séquence d'entrée).
  • Légendes d'images : Bien que cela implique la vision par ordinateur, le principe est similaire. Un CNN agit comme un encodeur pour traiter une image et créer un vecteur de contexte, qu'un décodeur utilise ensuite pour générer une séquence de texte descriptive. Ceci est un exemple de modèle multimodal.

Seq2Seq vs. Autres architectures

Bien que les modèles Seq2Seq basés sur les RNN aient été révolutionnaires, le domaine a évolué :

  • RNN standard : Mappent généralement les séquences aux séquences de la même longueur ou classent des séquences entières, sans la flexibilité de la structure encodeur-décodeur pour les longueurs de sortie variables.
  • Transformers : Dominent désormais de nombreuses tâches de NLP précédemment gérées par les modèles Seq2Seq basés sur RNN. Ils utilisent l'auto-attention et les encodages positionnels au lieu de la récurrence, ce qui permet une meilleure parallélisation et une capture plus efficace des dépendances à longue portée. Le concept sous-jacent d'encodeur-décodeur, cependant, reste central pour de nombreux modèles basés sur Transformer. Les modèles comme RT-DETR de Baidu, pris en charge par Ultralytics, intègrent des composants Transformer pour la détection d'objets.
  • CNN : Principalement utilisés pour les données de type grille telles que les images (par exemple, dans les modèles Ultralytics YOLO pour la détection et la segmentation), bien que parfois adaptés aux tâches séquentielles.

Bien que Seq2Seq fasse souvent référence à la structure encodeur-décodeur basée sur RNN, le principe général de la cartographie des séquences d'entrée aux séquences de sortie à l'aide d'une représentation intermédiaire reste au cœur de nombreuses architectures modernes. Des outils comme PyTorch et TensorFlow fournissent des éléments de base pour la mise en œuvre de modèles de séquences traditionnels et modernes. La gestion du processus de formation peut être rationalisée à l'aide de plateformes comme Ultralytics HUB, qui simplifie l'ensemble du pipeline de déploiement de modèles.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers