Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Sequence-to-Sequence Models

Lerne, wie Sequence-to-Sequence (Seq2Seq)-Modelle Übersetzung und NLP antreiben. Erforsche Encoder-Decoder-Architekturen, Transformer und die Integration mit Ultralytics YOLO26.

Sequence-to-Sequence- (Seq2Seq-) Modelle sind eine leistungsstarke Klasse von Machine Learning-Architekturen, die darauf ausgelegt sind, Sequenzen aus einer Domäne in Sequenzen in einer anderen umzuwandeln. Im Gegensatz zu standardmäßigen Bildklassifizierungsaufgaben, bei denen die Eingabe- und Ausgabegrößen fest sind, zeichnen sich Seq2Seq-Modelle dadurch aus, dass sie mit Eingaben und Ausgaben variabler Länge umgehen können. Diese Flexibilität macht sie zum Rückgrat vieler moderner Anwendungen des Natural Language Processing (NLP), wie zum Beispiel Übersetzung und Zusammenfassung, bei denen die Länge des Eingabesatzes nicht zwangsläufig die Länge des Ausgabesatzes bestimmt.

Link to this sectionKernarchitektur und Funktionalität#

Die grundlegende Struktur eines Seq2Seq-Modells basiert auf dem Encoder-Decoder-Framework. Diese Architektur unterteilt das Modell in zwei Hauptkomponenten, die zusammenarbeiten, um sequenzielle Daten zu verarbeiten.

  • Der Encoder: Diese Komponente verarbeitet die Eingabesequenz (z. B. einen Satz auf Englisch oder eine Sequenz von Audio-Frames) Element für Element. Er komprimiert die Informationen in einen Kontextvektor fester Länge, auch bekannt als Hidden State. In traditionellen Architekturen wird der Encoder oft unter Verwendung von Recurrent Neural Networks (RNN) oder Long Short-Term Memory (LSTM)-Netzwerken aufgebaut, die darauf ausgelegt sind, Informationen über Zeitschritte hinweg beizubehalten.
  • Der Decoder: Sobald die Eingabe kodiert ist, nimmt der Decoder den Kontextvektor und sagt die Ausgabesequenz (z. B. den entsprechenden Satz auf Französisch) Schritt für Schritt voraus. Er verwendet die vorherige Vorhersage, um die nächste zu beeinflussen, was die grammatikalische und kontextuelle Kontinuität sicherstellt.

Während frühe Versionen stark auf RNNs setzten, verwenden moderne Seq2Seq-Modelle vorwiegend die Transformer-Architektur. Transformer nutzen den Attention-Mechanismus, der es dem Modell ermöglicht, „auf“ bestimmte Teile der Eingabesequenz zu achten, unabhängig von ihrer Entfernung zum aktuellen Schritt, was die Leistung bei langen Sequenzen erheblich verbessert, wie in dem grundlegenden Paper Attention Is All You Need dargelegt.

Link to this sectionPraxisanwendungen#

Die Vielseitigkeit von Seq2Seq-Modellen ermöglicht es ihnen, die Lücke zwischen Textanalyse und Computer Vision zu schließen und komplexe multimodale Interaktionen zu ermöglichen.

  • Maschinelle Übersetzung: Die vielleicht bekannteste Anwendung: Seq2Seq-Modelle betreiben Tools wie Google Translate. Das Modell akzeptiert einen Satz in einer Quellsprache und gibt einen Satz in einer Zielsprache aus, wobei es fließend mit Unterschieden in Grammatik und Satzbau umgeht.
  • Textzusammenfassung: Diese Modelle können lange Dokumente oder Artikel aufnehmen und prägnante Zusammenfassungen erstellen. Indem der Decoder den Kerninhalt des Eingabetextes versteht, erzeugt er eine kürzere Sequenz, die die wichtigsten Informationen beibehält – eine Technik, die für die automatisierte Nachrichtenaggregation unerlässlich ist.
  • Bildunterschriften: Durch die Kombination von Vision und Sprache kann ein Seq2Seq-Modell den Inhalt eines Bildes beschreiben. Ein Convolutional Neural Network (CNN) fungiert als Encoder, um visuelle Merkmale zu extrahieren, während ein RNN als Decoder fungiert, um einen beschreibenden Satz zu generieren. Dies ist ein Paradebeispiel für ein multimodales Modell.
  • Spracherkennung: In diesen Systemen ist die Eingabe eine Sequenz von Audiosignalframes und die Ausgabe eine Sequenz von Textzeichen oder Wörtern. Diese Technologie bildet die Basis für virtuelle Assistenten wie Siri und Alexa.

Link to this sectionCode-Beispiel: Grundlegender Baustein#

Während High-Level-Frameworks viel Komplexität abstrahieren, ist es hilfreich, den zugrunde liegenden Mechanismus zu verstehen. Der folgende Code demonstriert eine grundlegende LSTM-Schicht in PyTorch, die oft als rekurrente Einheit innerhalb des Encoders oder Decoders eines traditionellen Seq2Seq-Modells dient.

import torch
import torch.nn as nn

# Initialize an LSTM layer (common in Seq2Seq encoders)
# input_size: number of features per time step (e.g., word embedding size)
# hidden_size: size of the context vector/hidden state
lstm_layer = nn.LSTM(input_size=10, hidden_size=20, batch_first=True)

# Create a dummy input sequence: Batch size 3, Sequence length 5, Features 10
input_seq = torch.randn(3, 5, 10)

# Pass the sequence through the LSTM
# output contains features for each time step; hn is the final hidden state
output, (hn, cn) = lstm_layer(input_seq)

print(f"Output shape: {output.shape}")  # Shape: [3, 5, 20]
print(f"Final Hidden State shape: {hn.shape}")  # Shape: [1, 3, 20]

Link to this sectionVergleich mit verwandten Konzepten#

Es ist wichtig, Seq2Seq-Modelle von anderen Architekturen zu unterscheiden, um ihren spezifischen Nutzen zu verstehen.

  • Vs. Standardklassifizierung: Standardklassifikatoren, wie sie in der einfachen Bildklassifizierung verwendet werden, ordnen eine einzelne Eingabe (wie ein Bild) einem einzelnen Klassen-Label zu. Im Gegensatz dazu bilden Seq2Seq-Modelle Sequenzen auf Sequenzen ab, was variable Ausgabelängen ermöglicht.
  • Vs. Objekterkennung: Modelle wie Ultralytics YOLO26 konzentrieren sich auf die räumliche Erkennung innerhalb eines einzelnen Bildes, identifizieren Objekte und deren Standorte. Während YOLO Bilder strukturell verarbeitet, verarbeiten Seq2Seq-Modelle Daten zeitlich. Die Bereiche überschneiden sich jedoch bei Aufgaben wie Objektverfolgung, bei denen die Identifizierung von Objektbahnen über Video-Frames hinweg eine sequentielle Datenanalyse erfordert.
  • Vs. Transformer: Die Transformer-Architektur ist die moderne Weiterentwicklung von Seq2Seq. Während die ursprünglichen Seq2Seq-Modelle stark auf RNNs und Gated Recurrent Units (GRU) basierten, nutzen Transformer Self-Attention, um Sequenzen parallel zu verarbeiten, was erhebliche Verbesserungen bei Geschwindigkeit und Genauigkeit bietet.

Link to this sectionBedeutung im KI-Ökosystem#

Seq2Seq-Modelle haben grundlegend verändert, wie Maschinen mit menschlicher Sprache und zeitlichen Daten interagieren. Ihre Fähigkeit, mit sequenzabhängigen Daten umzugehen, hat die Erstellung ausgeklügelter Chatbots, automatisierter Übersetzer und Codegenerierungstools ermöglicht. Für Entwickler, die mit den großen Datensätzen arbeiten, die für das Training dieser Modelle erforderlich sind, kann die Nutzung der Ultralytics Platform Datenmanagement- und Modell-Deployment-Workflows rationalisieren. Während die Forschung im Bereich Generative AI voranschreitet, bleiben die Prinzipien der Sequenzmodellierung zentral für die Entwicklung von Large Language Models (LLMs) und fortschrittlichen Systemen zum Videoverständnis.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens