Découvrez comment les modèles séquence à séquence transforment les séquences d'entrée en séquences de sortie, alimentant les tâches d'IA telles que la traduction, les chatbots et la reconnaissance vocale.
Les modèles Sequence-to-Sequence (Seq2Seq) sont une classe de modèles d'apprentissage profond conçus pour transformer une séquence d'entrée en une séquence de sortie, où les longueurs de l'entrée et de la sortie peuvent différer. Cette flexibilité les rend exceptionnellement puissants pour un large éventail de tâches dans le domaine du traitement automatique du langage naturel (TALN) et au-delà. L'idée de base a été introduite dans des articles de chercheurs de Google et du laboratoire de Yoshua Bengio, révolutionnant des domaines tels que la traduction automatique.
Les modèles Seq2Seq sont construits sur une architecture encodeur-décodeur. Cette structure permet au modèle de gérer efficacement les séquences de longueur variable.
L'encodeur : Ce composant traite l'ensemble de la séquence d'entrée, telle qu'une phrase en anglais. Il lit la séquence un élément à la fois (par exemple, mot par mot) et compresse les informations dans une représentation numérique de longueur fixe appelée vecteur de contexte ou « vecteur de pensée ». Traditionnellement, l'encodeur est un réseau neuronal récurrent (RNN) ou une variante plus avancée comme la mémoire à long terme (LSTM), qui est apte à capturer des informations séquentielles.
Le décodeur : Ce composant prend le vecteur de contexte de l'encodeur comme entrée initiale. Son travail consiste à générer la séquence de sortie un élément à la fois. Par exemple, dans une tâche de traduction, il générerait la phrase traduite mot par mot. La sortie de chaque étape est réinjectée dans le décodeur à l'étape suivante, ce qui lui permet de générer une séquence cohérente. Ce processus se poursuit jusqu'à ce qu'un jeton spécial de fin de séquence soit produit. Une innovation clé qui a considérablement amélioré les performances de Seq2Seq est le mécanisme d'attention, qui permet au décodeur de revenir sur différentes parties de la séquence d'entrée originale lors de la génération de la sortie.
La capacité de mapper des entrées de longueur variable à des sorties de longueur variable rend les modèles Seq2Seq très polyvalents.
Bien que les modèles Seq2Seq basés sur les RNN aient été révolutionnaires, le domaine a évolué :
Bien que Seq2Seq fasse souvent référence à la structure encodeur-décodeur basée sur RNN, le principe général de la cartographie des séquences d'entrée aux séquences de sortie à l'aide d'une représentation intermédiaire reste au cœur de nombreuses architectures modernes. Des outils comme PyTorch et TensorFlow fournissent des éléments de base pour la mise en œuvre de modèles de séquences traditionnels et modernes. La gestion du processus de formation peut être rationalisée à l'aide de plateformes comme Ultralytics HUB, qui simplifie l'ensemble du pipeline de déploiement de modèles.