Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Sequence-to-Sequence Models

Apprends comment les modèles séquence-à-séquence (Seq2Seq) propulsent la traduction et le NLP. Explore les architectures encodeur-décodeur, les Transformers et l'intégration avec Ultralytics YOLO26.

Les modèles de séquence à séquence (Seq2Seq) forment une classe puissante d'architectures d'apprentissage automatique conçues pour convertir des séquences d'un domaine vers des séquences d'un autre. Contrairement aux tâches classiques de classification d'images où les tailles d'entrée et de sortie sont fixes, les modèles Seq2Seq excellent dans le traitement d'entrées et de sorties de longueurs variables. Cette flexibilité en fait l'épine dorsale de nombreuses applications modernes de traitement du langage naturel (NLP), comme la traduction et le résumé, où la longueur de la phrase d'entrée ne dicte pas nécessairement la longueur de la phrase de sortie.

Link to this sectionArchitecture centrale et fonctionnalité#

La structure fondamentale d'un modèle Seq2Seq repose sur le cadre encodeur-décodeur. Cette architecture divise le modèle en deux composants principaux travaillant en tandem pour traiter des données séquentielles.

  • L'encodeur : Ce composant traite la séquence d'entrée (par exemple, une phrase en anglais ou une séquence de trames audio) un élément à la fois. Il compresse les informations dans un vecteur de contexte de longueur fixe, également appelé état caché. Dans les architectures traditionnelles, l'encodeur est souvent construit à l'aide de réseaux de neurones récurrents (RNN) ou de réseaux à mémoire à court et long terme (LSTM), conçus pour conserver des informations au fil des étapes.
  • Le décodeur : Une fois l'entrée encodée, le décodeur prend le vecteur de contexte et prédit la séquence de sortie (par exemple, la phrase correspondante en français) étape par étape. Il utilise la prédiction précédente pour influencer la suivante, garantissant ainsi la continuité grammaticale et contextuelle.

Bien que les premières versions reposaient fortement sur les RNN, les modèles Seq2Seq modernes utilisent principalement l'architecture Transformer. Les Transformers utilisent le mécanisme d'attention, qui permet au modèle de « prêter attention » à des parties spécifiques de la séquence d'entrée indépendamment de leur distance par rapport à l'étape actuelle, améliorant ainsi considérablement les performances sur les longues séquences comme détaillé dans l'article séminal Attention Is All You Need.

Link to this sectionApplications concrètes#

La polyvalence des modèles Seq2Seq leur permet de combler le fossé entre l'analyse de texte et la vision par ordinateur, permettant des interactions multimodales complexes.

  • Traduction automatique : Peut-être l'application la plus célèbre, les modèles Seq2Seq alimentent des outils comme Google Translate. Le modèle accepte une phrase dans une langue source et produit une phrase dans une langue cible, gérant avec fluidité les différences de grammaire et de structure de phrase.
  • Résumé de texte : Ces modèles peuvent ingérer de longs documents ou articles et générer des résumés concis. En comprenant le sens profond du texte d'entrée, le décodeur produit une séquence plus courte qui conserve les informations clés, une technique vitale pour l'agrégation automatisée de nouvelles.
  • Légendage d'images : En combinant vision et langage, un modèle Seq2Seq peut décrire le contenu d'une image. Un réseau de neurones convolutifs (CNN) agit comme encodeur pour extraire les caractéristiques visuelles, tandis qu'un RNN agit comme décodeur pour générer une phrase descriptive. C'est un excellent exemple de modèle multimodal.
  • Reconnaissance vocale : Dans ces systèmes, l'entrée est une séquence de trames de signal audio, et la sortie est une séquence de caractères ou de mots textuels. Cette technologie sous-tend les assistants virtuels comme Siri et Alexa.

Link to this sectionExemple de code : Bloc de construction de base#

Bien que les frameworks de haut niveau abstraient une grande partie de la complexité, il est utile de comprendre le mécanisme sous-jacent. Le code suivant démontre une couche LSTM de base dans PyTorch, qui sert souvent d'unité récurrente au sein de l'encodeur ou du décodeur d'un modèle Seq2Seq traditionnel.

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

Link to this sectionComparaison avec des concepts associés#

Il est important de distinguer les modèles Seq2Seq des autres architectures pour comprendre leur utilité spécifique.

  • Vs. Classification standard : Les classificateurs standard, tels que ceux utilisés dans la classification d'images de base, mappent une entrée unique (comme une image) vers une étiquette de classe unique. En revanche, les modèles Seq2Seq mappent des séquences vers des séquences, permettant des longueurs de sortie variables.
  • Vs. Détection d'objets : Des modèles comme Ultralytics YOLO26 se concentrent sur la détection spatiale dans une seule trame, identifiant les objets et leurs emplacements. Alors que YOLO traite les images de manière structurelle, les modèles Seq2Seq traitent les données de manière temporelle. Cependant, les domaines se chevauchent dans des tâches comme le suivi d'objets, où l'identification des trajectoires d'objets sur des trames vidéo implique une analyse séquentielle des données.
  • Vs. Transformers : L'architecture Transformer est l'évolution moderne de Seq2Seq. Alors que les modèles Seq2Seq originaux reposaient fortement sur les RNN et les unités récurrentes à portes (GRU), les Transformers utilisent l'auto-attention pour traiter les séquences en parallèle, offrant des améliorations significatives en termes de vitesse et de précision.

Link to this sectionImportance dans l'écosystème IA#

Les modèles Seq2Seq ont fondamentalement changé la façon dont les machines interagissent avec le langage humain et les données temporelles. Leur capacité à gérer des données dépendantes de la séquence a permis la création de chatbots sophistiqués, de traducteurs automatisés et d'outils de génération de code. Pour les développeurs travaillant avec de grands jeux de données nécessaires pour entraîner ces modèles, utiliser la plateforme Ultralytics peut rationaliser les flux de gestion des données et de déploiement des modèles. À mesure que la recherche progresse vers l' IA générative, les principes de la modélisation de séquence restent au cœur du développement des grands modèles de langage (LLM) et des systèmes avancés de compréhension vidéo.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique