Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Transformer

Entdecken Sie, wie Transformer-Architekturen die KI revolutionieren und Durchbrüche in NLP, Computer Vision und fortgeschrittenen ML-Aufgaben ermöglichen.

Ein Transformer ist eine bahnbrechende Architektur für neuronale Netze, die einen Selbstbeobachtungsmechanismus zur parallelen Verarbeitung von Eingabedaten nutzt. Eingabedaten parallel zu verarbeiten, was die Bereiche der Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV). Erstmals vorgestellt von Google in der bahnbrechenden Veröffentlichung von 2017 "Attention Is All You Need" (Aufmerksamkeit ist alles, was man braucht) vorgestellt, bewegt sich der Transformer die sequenzielle Verarbeitung älterer Architekturen. Stattdessen analysiert er ganze Sequenzen von Daten gleichzeitig, Dadurch können weitreichende Abhängigkeiten und kontextuelle Beziehungen mit einer bisher unerreichten Effizienz erfasst werden. Diese Architektur dient als Grundlage für moderne Generative KI und leistungsstarke Large Language Models (LLMs) wie GPT-4.

Kernarchitektur und Mechanismus

Das bestimmende Merkmal eines Transformers ist sein Rückgriff auf den Aufmerksamkeitsmechanismus, insbesondere Selbstaufmerksamkeit. Anders als rekurrenten neuronalen Netzen (RNNs), die Daten schrittweise verarbeiten (z. B. Wort für Wort), nehmen Transformers die gesamte Eingabe auf einmal auf. Um die Reihenfolge der Daten zu verstehen, verwenden sie Positionskodierungen, die zu den Eingabeeinbettungen hinzugefügt werden, um Informationen über die Sequenzstruktur zu erhalten.

Die Architektur besteht in der Regel aus Encoder- und Decoderstapeln:

  • Kodierer: Verarbeitet die Eingabedaten, um ein kontextuelles Verständnis zu schaffen.
  • Decoder: Verwendet die Erkenntnisse des Kodierers, um Ausgaben zu erzeugen, wie z. B. übersetzten Text oder vorhergesagte Bildpixel.

Diese parallele Struktur ermöglicht eine massive Skalierbarkeit, die es Forschern erlaubt Modelle auf großen Datensätzen mit Hilfe von Hochleistungs GPUs.

Transformatoren in der Computer Vision

Ursprünglich für Text konzipiert, wurde die Architektur mit Hilfe des Vision Transformer (ViT) erfolgreich für visuelle Aufgaben angepasst. Vision Transformer (ViT). Bei diesem Ansatz wird ein Bild in eine Folge von Feldern fester Größe aufgeteilt (ähnlich wie Wörter in einem Satz). Das Modell verwendet dann Selbstaufmerksamkeit, um die Bedeutung der verschiedenen Patches relativ zueinander zu gewichten und so den globalen Kontext zu erfassen, den traditionelle Faltungsneuronale Netze (CNNs) übersehen könnten.

Zum Beispiel nutzt der Real-Time Detection Transformer (RT-DETR) nutzt diese Architektur, um eine hochpräzise Objekterkennung Objekterkennung. Im Gegensatz zu CNN-basierten Modellen, die die sich auf lokale Merkmale stützen, kann RT-DETR die Beziehung zwischen weit entfernten Objekten in einer Szene verstehen. Es ist jedoch dass Transformers sich durch einen globalen Kontext auszeichnen, während CNN-basierte Modelle wie Ultralytics YOLO11 oft ein besseres Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für Echtzeit-Edge-Anwendungen. Gemeinschaftsmodelle wie YOLO12 haben versucht, Schichten mit hoher Aufmerksamkeit zu integrieren zu integrieren, leiden aber im Vergleich zur optimierten CNN-Architektur von YOLO11 häufig unter Trainingsinstabilität und langsamen Inferenzgeschwindigkeiten. von YOLO11.

Anwendungsfälle in der Praxis

Die Vielseitigkeit der Transformer-Architektur hat dazu geführt, dass sie in verschiedenen Branchen eingesetzt wird.

  • Medizinische Bildanalyse: Im Gesundheitswesen helfen Transformatoren bei der medizinischen Bildanalyse durch Korrelation von Merkmale in hochauflösenden Scans (z. B. MRI oder CT) korrelieren, um Anomalien wie Tumore detect . Ihre Fähigkeit zum Verständnis globalen Kontext zu verstehen, stellt sicher, dass subtile Muster nicht übersehen werden.
  • Autonome Navigation: Selbstfahrende Autos verwenden Transformer-basierte Modelle zur Verarbeitung von Videobildern von mehreren Kameras. Dies hilft bei Videoverständnis und Flugbahnvorhersage indem sie verfolgen, wie dynamische Objekte (Fußgänger, andere Fahrzeuge) im Laufe der Zeit interagieren.
  • Fortgeschrittene Chatbots: Virtuelle Assistenten und Kundensupport-Agenten verlassen sich auf Transformers, um den Kontext über lange Unterhaltungen hinweg aufrechtzuerhalten, was das Benutzererlebnis im Vergleich zu älteren Chatbots.

Verwendung von Transformatoren mit Ultralytics

Sie können mit Transformer-basierten Computer-Vision-Modellen experimentieren, indem Sie direkt die ultralytics Paket. Das folgende Beispiel zeigt, wie man das RT-DETR für die Objekterkennung lädt.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformatoren vs. andere Architekturen

Es ist wichtig, Transformers von anderen gängigen Architekturen Deep Learning (DL) Architekturen zu unterscheiden:

  • Transformatoren vs. RNNs/LSTMs: RNNs leiden unter dem Problem des verschwindenden Gradienten, wodurch sie frühe Informationen in langen Sequenzen vergessen. Transformatoren lösen dieses Problem durch Selbstbeobachtung, indem sie den Zugriff auf die gesamte Geschichte der Sequenz.
  • Transformatoren vs. CNNs: CNNs sind übersetzungsinvariant und hervorragend in der Erkennung lokaler Muster (Kanten, Texturen) unter Verwendung eines Backbones, was sie effizient für Bildaufgaben. Transformatoren lernen globale Beziehungen, benötigen aber im Allgemeinen mehr Daten und Rechenleistung um zu konvergieren. Moderne Ansätze erstellen oft hybride Modelle oder verwenden effiziente CNNs wie YOLO11 die in eingeschränkten Umgebungen bessere Leistungen als reine Transformers Umgebungen übertreffen.

Zukünftiger Ausblick

Die Forschung verbessert kontinuierlich die Effizienz von Transformatoren. Innovationen wie FlashAttention reduzieren die Rechenkosten, wodurch längere Kontextfenster möglich werden. Außerdem multimodale KI-Systeme die Transformatoren mit anderen mit anderen Architekturen, um Text, Bilder und Audio gleichzeitig zu verarbeiten. Wenn diese Technologien ausgereift sind, wird die kommende Ultralytics eine einheitliche Umgebung zum Trainieren, Bereitstellen und Überwachung dieser anspruchsvollen Modelle neben Standard Computer Vision Aufgaben.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten