Transformer
Erkunde die Transformer-Architektur und den Self-Attention-Mechanismus. Lerne, wie sie KI-Modelle wie RT-DETR und Ultralytics YOLO26 für überlegene Genauigkeit antreiben.
Ein Transformer ist eine Deep-Learning-Architektur, die auf einem Mechanismus namens Self-Attention basiert, um sequentielle Eingabedaten wie natürliche Sprache oder visuelle Merkmale zu verarbeiten. Ursprünglich von Google-Forschern im wegweisenden Paper Attention Is All You Need vorgestellt, revolutionierte der Transformer das Gebiet der künstlichen Intelligenz (KI), indem er die Einschränkungen der sequentiellen Verarbeitung früherer rekurrenter neuronaler Netze (RNNs) hinter sich ließ. Stattdessen analysieren Transformer ganze Datenfolgen gleichzeitig, was eine massive Parallelisierung und deutlich schnellere Trainingszeiten auf moderner Hardware wie GPUs ermöglicht.
Link to this sectionSo funktionieren Transformer#
Die Kerninnovation des Transformers ist der Self-Attention-Mechanismus. Er ermöglicht es dem Modell, die Bedeutung verschiedener Teile der Eingabedaten im Verhältnis zueinander zu gewichten. In einem Satz kann das Modell beispielsweise lernen, dass das Wort „Bank“ je nach Kontext eher mit „Geld“ als mit „Fluss“ in Verbindung steht.
Diese Architektur besteht im Allgemeinen aus zwei Hauptkomponenten:
- Encoder: Verarbeitet die Eingabedaten zu einer reichhaltigen numerischen Repräsentation oder einem Embedding.
- Decoder: Verwendet die Ausgabe des Encoders, um das Endergebnis zu generieren, wie etwa einen übersetzten Satz oder eine vorhergesagte Bounding Box.
Im Bereich der Computer Vision (CV) verwenden Modelle meist eine Variante namens Vision Transformer (ViT). Anstatt Text-Tokens zu verarbeiten, wird das Bild in gleich große Patches (z. B. 16x16 Pixel) unterteilt. Diese Patches werden flachgedrückt und als Sequenz behandelt, wodurch das Modell den „globalen Kontext“ – also das Verständnis der Beziehungen zwischen weit entfernten Teilen eines Bildes – effektiver erfassen kann als ein standardmäßiges Convolutional Neural Network (CNN).
Link to this sectionTransformer vs. verwandte Konzepte#
Es ist wichtig, die Transformer-Architektur von verwandten Begriffen zu unterscheiden:
- Attention-Mechanismus: Dies ist das allgemeine Konzept, sich auf bestimmte Teile von Daten zu konzentrieren. Der Transformer ist eine spezifische Architektur, die vollständig auf Attention-Layern aufbaut, während andere Modelle Attention möglicherweise nur als kleine Ergänzung verwenden.
- Large Language Model (LLM): Begriffe wie „GPT“ beziehen sich auf spezifische Modelle, die auf riesigen Textmengen trainiert wurden. Fast alle modernen LLMs nutzen die Transformer-Architektur als zugrunde liegende Engine.
Link to this sectionPraxisanwendungen#
Die Vielseitigkeit von Transformern hat zu ihrer Einführung in verschiedenen Branchen geführt:
-
Medizinische Bildgebung: Im Bereich KI im Gesundheitswesen werden Transformer für komplexe Aufgaben wie die medizinische Bildanalyse eingesetzt. Ihre Fähigkeit, globale räumliche Zusammenhänge zu verstehen, hilft bei der Erkennung subtiler Anomalien in hochauflösenden MRT- oder CT-Scans, die lokalen, auf Merkmale fokussierten CNNs entgehen könnten.
-
Autonome Systeme: Für autonome Fahrzeuge ist es entscheidend, die Flugbahn von Fußgängern und anderen Fahrzeugen zu verstehen. Transformer zeichnen sich durch Video-Verständnis aus, indem sie Objekte über Zeitrahmen hinweg verfolgen und zukünftige Bewegungen vorhersagen, um eine sichere Navigation zu gewährleisten.
Link to this sectionObjekterkennung mit Transformern#
Während CNNs traditionell die Objekterkennung dominiert haben, haben sich auf Transformern basierende Modelle wie der Real-Time Detection Transformer (RT-DETR) als leistungsstarke Alternativen etabliert. RT-DETR kombiniert die Geschwindigkeit von CNN-Backbones mit der Präzision von Transformer-Decoding-Heads.
Reine Transformer-Modelle können jedoch rechenintensiv sein. Für viele Edge-Anwendungen bieten hochoptimierte Hybridmodelle wie YOLO26 – die effiziente Attention-Mechanismen mit schneller Convolutional-Verarbeitung kombinieren – eine überlegene Balance zwischen Geschwindigkeit und Genauigkeit. Du kannst das Training und die Bereitstellung dieser Modelle ganz einfach über die Ultralytics Platform verwalten, die den Workflow von der Datensatz-Annotation bis zum Modellexport optimiert.
Link to this sectionPython-Beispiel: Verwendung von RT-DETR#
Das folgende Beispiel zeigt, wie man Inferenzen mit einem Transformer-basierten Modell innerhalb des ultralytics-Pakets durchführt. Dieser Code lädt ein vortrainiertes RT-DETR-Modell und erkennt Objekte in einem Bild.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Für weitere Informationen zu den mathematischen Grundlagen bietet die PyTorch-Dokumentation zu Transformer-Layern technische Tiefe, während IBMs Leitfaden zu Transformern eine übergeordnete geschäftliche Perspektive bietet.






