Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Transformer

Entdecken Sie die Transformer-Architektur und den Selbstaufmerksamkeitsmechanismus. Erfahren Sie, wie sie KI-Modelle wie RT-DETR Ultralytics für überragende Genauigkeit unterstützen.

Ein Transformer ist eine Deep-Learning-Architektur, die sich auf einen Mechanismus namens Selbstaufmerksamkeit stützt, um sequenzielle Eingabedaten wie natürliche Sprache oder visuelle Merkmale zu verarbeiten. Ursprünglich von Google in der bahnbrechenden Veröffentlichung Attention Is All You Needvorgestellt wurde, revolutionierte der Transformer den Bereich der künstlichen Intelligenz (KI), indem er die sequenziellen Verarbeitungsbeschränkungen früherer rezursiver neuronaler Netze (RNNs) beseitigte. Stattdessen analysieren Transformer ganze Datensequenzen gleichzeitig, was eine massive Parallelisierung und deutlich schnellere Trainingszeiten auf moderner Hardware wie GPUs ermöglicht.

Wie Transformer funktionieren

Die zentrale Innovation des Transformers ist der Selbstaufmerksamkeitsmechanismus. Dieser ermöglicht es dem Modell, die relative Bedeutung verschiedener Teile der Eingabedaten zueinander zu gewichten. In einem Satz kann das Modell beispielsweise aus dem Kontext lernen, dass das Wort „Bank” enger mit „Geld” als mit „Fluss” zusammenhängt .

Diese Architektur besteht im Allgemeinen aus zwei Hauptkomponenten:

  • Encoder: Verarbeitet die Eingabedaten zu einer reichhaltigen numerischen Darstellung oder Einbettung.
  • Decoder: Verwendet die Ausgabe des Encoders, um das Endergebnis zu generieren, z. B. einen übersetzten Satz oder eine vorhergesagte Begrenzungsbox.

Im Bereich der Computervision (CV) verwenden Modelle in der Regel eine Variante namens Vision Transformer (ViT). Anstatt Text-Token zu verarbeiten, wird das Bild in Patches fester Größe (z. B. 16x16 Pixel) aufgeteilt. Diese Patches werden abgeflacht und als Sequenz behandelt, wodurch das Modell den „globalen Kontext” – also die Beziehungen zwischen entfernten Teilen eines Bildes – effektiver erfassen kann als ein standardmäßiges Convolutional Neural Network (CNN).

Transformatoren vs. verwandte Konzepte

Es ist wichtig, die Transformer-Architektur von verwandten Begriffen zu unterscheiden:

  • Aufmerksamkeitsmechanismus: Dies ist das allgemeine Konzept, sich auf bestimmte Teile von Daten zu konzentrieren. Der Transformer ist eine spezielle Architektur, die vollständig auf Aufmerksamkeitsschichten basiert, während andere Modelle die Aufmerksamkeit möglicherweise nur als kleines Add-on verwenden.
  • Großes Sprachmodell (LLM): Begriffe wie „GPT” beziehen sich auf bestimmte Modelle, die mit riesigen Textmengen trainiert wurden. Fast alle modernen LLMs verwenden die Transformer-Architektur als zugrunde liegende Engine.

Anwendungsfälle in der Praxis

Die Vielseitigkeit von Transformatoren hat dazu geführt, dass sie in verschiedenen Branchen eingesetzt werden:

  1. Medizinische Bildgebung: Im Bereich KI im Gesundheitswesen werden Transformatoren für komplexe Aufgaben wie die Analyse medizinischer Bilder eingesetzt. Ihre Fähigkeit, globale räumliche Beziehungen zu verstehen, hilft bei der Erkennung subtiler Anomalien in hochauflösenden MRT- oder CT-Scans, die CNNs, die sich auf lokale Merkmale konzentrieren, möglicherweise übersehen würden.
  2. Autonome Systeme: Für autonome Fahrzeuge ist es entscheidend, die Bewegungsbahnen von Fußgängern und anderen Fahrzeugen zu verstehen. Transformatoren zeichnen sich durch hervorragende Fähigkeiten im Bereich des Videoverstehens aus, indem sie Objekte über Zeiträume hinweg verfolgen und zukünftige Bewegungen vorhersagen, um eine sichere Navigation zu gewährleisten.

Objekterkennung mit Transformatoren

Während CNNs traditionell die Objekterkennung dominiert haben, haben sich Transformer-basierte Modelle wie der Real-Time Detection Transformer (RT-DETR) als leistungsstarke Alternativen herausgestellt. RT-DETR die Geschwindigkeit von CNN-Backbones mit der Präzision von Transformer-Decodierungsköpfen.

Reine Transformer-Modelle können jedoch rechenintensiv sein. Für viele Edge-Anwendungen bieten hochoptimierte Hybridmodelle wie YOLO26, die effiziente Aufmerksamkeitsmechanismen mit schneller Faltungsverarbeitung integrieren, eine hervorragende Balance zwischen Geschwindigkeit und Genauigkeit. Sie können das Training und die Bereitstellung dieser Modelle einfach über Ultralytics verwalten, die den Workflow von der Datensatzannotation bis zum Modellexport optimiert.

Python : Verwendung von RT-DETR

Das folgende Beispiel zeigt, wie man mit einem Transformer-basierten Modell innerhalb des ultralytics Paket. Dieser Code lädt ein vortrainiertes RT-DETR und erkennt Objekte in einem Bild.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Weitere Informationen zu den mathematischen Grundlagen finden Sie in der PyTorch zu Transformer-Layern , die technische Details enthält, sowie im IBM-Leitfaden zu Transformern, der eine allgemeine geschäftliche Perspektive bietet.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten