Entdecken Sie, wie Transformer-Architekturen die KI revolutionieren und Durchbrüche in NLP, Computer Vision und fortgeschrittenen ML-Aufgaben ermöglichen.
Ein Transformer ist eine bahnbrechende Architektur für neuronale Netze, die einen Selbstbeobachtungsmechanismus zur parallelen Verarbeitung von Eingabedaten nutzt. Eingabedaten parallel zu verarbeiten, was die Bereiche der Verarbeitung natürlicher Sprache (NLP) und Computer Vision (CV). Erstmals vorgestellt von Google in der bahnbrechenden Veröffentlichung von 2017 "Attention Is All You Need" (Aufmerksamkeit ist alles, was man braucht) vorgestellt, bewegt sich der Transformer die sequenzielle Verarbeitung älterer Architekturen. Stattdessen analysiert er ganze Sequenzen von Daten gleichzeitig, Dadurch können weitreichende Abhängigkeiten und kontextuelle Beziehungen mit einer bisher unerreichten Effizienz erfasst werden. Diese Architektur dient als Grundlage für moderne Generative KI und leistungsstarke Large Language Models (LLMs) wie GPT-4.
Das bestimmende Merkmal eines Transformers ist sein Rückgriff auf den Aufmerksamkeitsmechanismus, insbesondere Selbstaufmerksamkeit. Anders als rekurrenten neuronalen Netzen (RNNs), die Daten schrittweise verarbeiten (z. B. Wort für Wort), nehmen Transformers die gesamte Eingabe auf einmal auf. Um die Reihenfolge der Daten zu verstehen, verwenden sie Positionskodierungen, die zu den Eingabeeinbettungen hinzugefügt werden, um Informationen über die Sequenzstruktur zu erhalten.
Die Architektur besteht in der Regel aus Encoder- und Decoderstapeln:
Diese parallele Struktur ermöglicht eine massive Skalierbarkeit, die es Forschern erlaubt Modelle auf großen Datensätzen mit Hilfe von Hochleistungs GPUs.
Ursprünglich für Text konzipiert, wurde die Architektur mit Hilfe des Vision Transformer (ViT) erfolgreich für visuelle Aufgaben angepasst. Vision Transformer (ViT). Bei diesem Ansatz wird ein Bild in eine Folge von Feldern fester Größe aufgeteilt (ähnlich wie Wörter in einem Satz). Das Modell verwendet dann Selbstaufmerksamkeit, um die Bedeutung der verschiedenen Patches relativ zueinander zu gewichten und so den globalen Kontext zu erfassen, den traditionelle Faltungsneuronale Netze (CNNs) übersehen könnten.
Zum Beispiel nutzt der Real-Time Detection Transformer (RT-DETR) nutzt diese Architektur, um eine hochpräzise Objekterkennung Objekterkennung. Im Gegensatz zu CNN-basierten Modellen, die die sich auf lokale Merkmale stützen, kann RT-DETR die Beziehung zwischen weit entfernten Objekten in einer Szene verstehen. Es ist jedoch dass Transformers sich durch einen globalen Kontext auszeichnen, während CNN-basierte Modelle wie Ultralytics YOLO11 oft ein besseres Gleichgewicht zwischen Geschwindigkeit und Genauigkeit für Echtzeit-Edge-Anwendungen. Gemeinschaftsmodelle wie YOLO12 haben versucht, Schichten mit hoher Aufmerksamkeit zu integrieren zu integrieren, leiden aber im Vergleich zur optimierten CNN-Architektur von YOLO11 häufig unter Trainingsinstabilität und langsamen Inferenzgeschwindigkeiten. von YOLO11.
Die Vielseitigkeit der Transformer-Architektur hat dazu geführt, dass sie in verschiedenen Branchen eingesetzt wird.
Sie können mit Transformer-basierten Computer-Vision-Modellen experimentieren, indem Sie direkt die ultralytics Paket.
Das folgende Beispiel zeigt, wie man das RT-DETR für die Objekterkennung lädt.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Es ist wichtig, Transformers von anderen gängigen Architekturen Deep Learning (DL) Architekturen zu unterscheiden:
Die Forschung verbessert kontinuierlich die Effizienz von Transformatoren. Innovationen wie FlashAttention reduzieren die Rechenkosten, wodurch längere Kontextfenster möglich werden. Außerdem multimodale KI-Systeme die Transformatoren mit anderen mit anderen Architekturen, um Text, Bilder und Audio gleichzeitig zu verarbeiten. Wenn diese Technologien ausgereift sind, wird die kommende Ultralytics eine einheitliche Umgebung zum Trainieren, Bereitstellen und Überwachung dieser anspruchsvollen Modelle neben Standard Computer Vision Aufgaben.