Transformator

Entdecken Sie, wie Transformer-Architekturen die KI revolutionieren und Durchbrüche in den Bereichen NLP, Computer Vision und erweiterte ML-Aufgaben ermöglichen.

Ein Transformer ist eine revolutionäre neuronale Netzwerkarchitektur, die zu einem Eckpfeiler der modernen künstlichen Intelligenz (KI) geworden ist, insbesondere bei der Verarbeitung natürlicher Sprache (NLP) und seit kurzem auch beim Computer Vision (CV). Die von Google-Forschern in der 2017 veröffentlichten Arbeit "Attention Is All You Need" vorgestellte Schlüsselinnovation ist der Mechanismus der Selbstaufmerksamkeit, der es dem Modell ermöglicht, die Bedeutung verschiedener Wörter oder Teile einer Eingabesequenz zu gewichten. Dadurch kann es weitreichende Abhängigkeiten und kontextuelle Beziehungen besser erfassen als frühere Architekturen. Das Design ermöglicht auch eine massive Parallelisierung, so dass viel größere Modelle auf riesigen Datensätzen trainiert werden können, was zum Aufkommen von Large Language Models (LLMs) geführt hat.

Wie Transformatoren funktionieren

Im Gegensatz zu sequenziellen Modellen wie rekurrenten neuronalen Netzen (RNNs) verarbeiten Transformers ganze Datenfolgen auf einmal. Die Kernidee besteht darin, alle Elemente parallel zu verarbeiten, was das Training auf moderner Hardware wie GPUs erheblich beschleunigt.

Um die Reihenfolge der Sequenz ohne Rekursion zu verstehen, verwenden Transformers eine Technik namens Positionskodierung, die Informationen über die Position jedes Elements (z. B. ein Wort in einem Satz) zu seiner Einbettung hinzufügt. Die Selbstaufmerksamkeitsschichten verarbeiten dann diese Einbettungen und ermöglichen es jedem Element, jedes andere Element in der Sequenz zu "betrachten" und festzustellen, welche Elemente für das Verständnis seiner Bedeutung am wichtigsten sind. Dieses globale Kontextbewusstsein ist ein großer Vorteil für komplexe Aufgaben. Frameworks wie PyTorch und TensorFlow bieten umfangreiche Unterstützung für den Aufbau von Transformer-basierten Modellen.

Anwendungen von Transformatoren

Die Auswirkungen von Transformers erstrecken sich auf zahlreiche Bereiche und treiben den Fortschritt sowohl bei Sprach- als auch bei Sehaufgaben voran.

Übersetzung und Generierung von Sprachen: Dienste wie Google Translate verwenden Transformer-basierte Modelle für hochwertige maschinelle Übersetzungen. Das Modell kann den gesamten Ausgangssatz berücksichtigen, um eine flüssigere und genauere Übersetzung zu erstellen. Ähnlich zeichnen sich Modelle wie GPT-4 bei der Texterstellung aus, indem sie den Kontext verstehen, um kohärente Absätze zu erstellen, Artikel zu verfassen oder fortschrittliche Chatbots zu betreiben.
Computer Vision: Der Vision Transformer (ViT) passt die Architektur für bildbasierte Aufgaben an. Er behandelt ein Bild als eine Abfolge von Flecken und nutzt die Selbstaufmerksamkeit, um Beziehungen zwischen ihnen zu modellieren. Dieser Ansatz wird in Modellen wie RT-DETR zur Objekterkennung verwendet, wo das Verständnis des globalen Kontextes einer Szene dazu beitragen kann, Objekte genauer zu identifizieren, insbesondere in unübersichtlichen Umgebungen. Sie können einen Vergleich von RT-DETR und YOLOv8 sehen, um die Unterschiede in der Architektur zu verstehen.

Transformator im Vergleich zu anderen Architekturen

Es ist hilfreich, Transformers von anderen gängigen neuronalen Netzwerkarchitekturen zu unterscheiden:

Transformatoren vs. RNNs: RNNs verarbeiten Daten sequentiell, was sie von Natur aus langsam und anfällig für das Problem des verschwindenden Gradienten macht, wodurch sie frühere Informationen in langen Sequenzen vergessen. Transformatoren überwinden dieses Problem durch parallele Verarbeitung und Selbstbeobachtung und erfassen weitreichende Abhängigkeiten viel effektiver.
Transformatoren vs. CNNs: Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) sind hocheffizient für Bildverarbeitungsaufgaben und verwenden Faltungsfilter, um lokale Muster in gitterartigen Daten wie Pixeln zu erkennen. Sie bilden die Grundlage für Modelle wie die YOLO-Familie von Ultralytics. Transformatoren hingegen erfassen globale Beziehungen, benötigen aber oft mehr Daten und Rechenressourcen. Hybridmodelle, die ein CNN-Grundgerüst mit Transformatorschichten kombinieren, sollen das Beste aus beiden Welten bieten.

Effiziente Transformator-Varianten

Der Rechenaufwand für die vollständige Selbstbeobachtung des ursprünglichen Transformers wächst quadratisch mit der Länge der Sequenz, was es für sehr lange Sequenzen schwierig macht. Dies hat zur Entwicklung von effizienteren Varianten geführt.

Longformer: Verwendet einen Sliding-Window-Attention-Mechanismus in Kombination mit globaler Aufmerksamkeit auf bestimmte Token, um die Rechenkomplexität zu reduzieren.
Reformer: Setzt Techniken wie ortsabhängiges Hashing ein, um die volle Aufmerksamkeit zu erreichen, was die Speichereffizienz erhöht.
Transformer-XL: Führt einen Rekursionsmechanismus ein, der es dem Modell ermöglicht, Abhängigkeiten über eine feste Länge hinaus zu erlernen, was besonders für die autoregressive Sprachmodellierung nützlich ist.

Durch diese Fortschritte wird die Anwendbarkeit von Transformers auf neue Probleme weiter ausgebaut. Tools und Plattformen wie Hugging Face und Ultralytics HUB erleichtern Entwicklern den Zugang zu diesen leistungsstarken Modellen und deren Einsatz.

Transformator

Flexible Lizenzierungslösung für Unternehmen zur Förderung Ihrer Innovation

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Trainieren Sie YOLO-Modelle einfach mit Ultralytics HUB

Wie Transformatoren funktionieren

Anwendungen von Transformatoren

Transformator im Vergleich zu anderen Architekturen

Effiziente Transformator-Varianten

Lesen Sie mehr in dieser Kategorie

FastVLM: Apple stellt sein neues schnelles Bildsprachmodell vor

Human-in-the-Loop Machine Learning (HITL) erklärt

Fertigungsautomatisierung mit Vision AI

Werden Sie Mitglied der Ultralytics-Gemeinschaft