Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Sequence-to-Sequence-Modelle

Entdecken Sie, wie Sequence-to-Sequence-Modelle Eingabe- in Ausgabesequenzen transformieren und KI-Aufgaben wie Übersetzung, Chatbots und Spracherkennung ermöglichen.

Sequence-to-Sequence (Seq2Seq) Modelle sind eine Klasse von Deep-Learning-Modellen, die entwickelt wurden, um eine Eingabesequenz in eine Ausgabesequenz zu transformieren, wobei die Längen der Eingabe und Ausgabe unterschiedlich sein können. Diese Flexibilität macht sie außergewöhnlich leistungsfähig für eine Vielzahl von Aufgaben in der natürlichen Sprachverarbeitung (NLP) und darüber hinaus. Die Kernidee wurde in Veröffentlichungen von Forschern bei Google und Yoshua Bengios Labor vorgestellt und revolutionierte Bereiche wie die maschinelle Übersetzung.

Wie Seq2Seq-Modelle funktionieren

Seq2Seq-Modelle basieren auf einer Encoder-Decoder-Architektur. Diese Struktur ermöglicht es dem Modell, Sequenzen variabler Länge effektiv zu verarbeiten.

  • Der Encoder: Diese Komponente verarbeitet die gesamte Eingabesequenz, wie z. B. einen Satz auf Englisch. Er liest die Sequenz Element für Element (z. B. Wort für Wort) und komprimiert die Informationen in eine numerische Darstellung fester Länge, die als Kontextvektor oder "Gedankenvektor" bezeichnet wird. Traditionell ist der Encoder ein Recurrent Neural Network (RNN) oder eine fortgeschrittenere Variante wie Long Short-Term Memory (LSTM), das in der Lage ist, sequentielle Informationen zu erfassen.

  • Der Decoder: Diese Komponente übernimmt den Kontextvektor vom Encoder als initiale Eingabe. Seine Aufgabe ist es, die Ausgabesequenz Element für Element zu generieren. Zum Beispiel würde er bei einer Übersetzungsaufgabe den übersetzten Satz Wort für Wort generieren. Die Ausgabe von jedem Schritt wird im nächsten Schritt wieder in den Decoder eingespeist, wodurch er eine kohärente Sequenz generieren kann. Dieser Prozess wird fortgesetzt, bis ein spezielles End-of-Sequence-Token erzeugt wird. Eine wichtige Innovation, die die Seq2Seq-Performance deutlich verbessert hat, ist der Attention-Mechanismus, der es dem Decoder ermöglicht, während der Generierung der Ausgabe auf verschiedene Teile der ursprünglichen Eingabesequenz zurückzublicken.

Anwendungen von Seq2Seq-Modellen

Die Fähigkeit, Eingaben variabler Länge auf Ausgaben variabler Länge abzubilden, macht Seq2Seq-Modelle äußerst vielseitig.

  • Maschinelle Übersetzung: Dies ist die Quintessenz der Anwendung. Ein Modell kann einen Satz in einer Sprache (z. B. "How are you?") nehmen und ihn in eine andere übersetzen (z. B. "Wie geht es Ihnen?"). Dienste wie Google Translate haben diese Prinzipien stark genutzt.
  • Textzusammenfassung: Ein Seq2Seq-Modell kann einen langen Artikel oder ein langes Dokument (Eingabesequenz) lesen und eine prägnante Zusammenfassung (Ausgabesequenz) erstellen. Dies ist nützlich, um große Textmengen in verdauliche Erkenntnisse zu verdichten.
  • Chatbots und konversationelle KI: Modelle können trainiert werden, um eine relevante und kontextbezogene Antwort (Ausgabesequenz) auf die Anfrage oder Aussage (Eingabesequenz) eines Benutzers zu generieren.
  • Bildunterschriftung: Obwohl dies Computer Vision beinhaltet, ist das Prinzip ähnlich. Ein CNN fungiert als Encoder, um ein Bild zu verarbeiten und einen Kontextvektor zu erstellen, den ein Decoder dann verwendet, um eine beschreibende Textsequenz zu generieren. Dies ist ein Beispiel für ein Multi-Modal-Modell.

Seq2Seq vs. andere Architekturen

Obwohl Seq2Seq-Modelle auf Basis von RNNs bahnbrechend waren, hat sich das Feld weiterentwickelt:

  • Standard-RNNs: Bilden typischerweise Sequenzen auf Sequenzen derselben Länge ab oder klassifizieren ganze Sequenzen, wobei die Flexibilität der Encoder-Decoder-Struktur für variable Ausgabelängen fehlt.
  • Transformers: Dominieren jetzt viele NLP-Aufgaben, die zuvor von RNN-basierten Seq2Seq-Modellen erledigt wurden. Sie verwenden Self-Attention und Positionskodierungen anstelle von Rekurrenz, was eine bessere Parallelisierung ermöglicht und langfristige Abhängigkeiten effektiver erfasst. Das zugrunde liegende Encoder-Decoder-Konzept bleibt jedoch für viele Transformer-basierte Modelle von zentraler Bedeutung. Modelle wie Baidus RT-DETR, die von Ultralytics unterstützt werden, integrieren Transformer-Komponenten für die Objekterkennung.
  • CNNs: Werden hauptsächlich für gitterartige Daten wie Bilder verwendet (z. B. in Ultralytics YOLO-Modellen für die Erkennung und Segmentierung), werden aber manchmal auch für Sequenzaufgaben angepasst.

Während sich Seq2Seq oft auf die RNN-basierte Encoder-Decoder-Struktur bezieht, bleibt das allgemeine Prinzip, Eingabesequenzen mithilfe einer Zwischenrepräsentation auf Ausgabesequenzen abzubilden, für viele moderne Architekturen von zentraler Bedeutung. Tools wie PyTorch und TensorFlow bieten Bausteine für die Implementierung sowohl traditioneller als auch moderner Sequenzmodelle. Die Steuerung des Trainingsprozesses kann mit Plattformen wie Ultralytics HUB optimiert werden, was die gesamte Model Deployment-Pipeline vereinfacht.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert