Glossar

Transformator

Entdecke, wie Transformer-Architekturen die KI revolutionieren und Durchbrüche in NLP, Computer Vision und fortgeschrittenen ML-Aufgaben ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Transformers sind eine zentrale Architektur neuronaler Netze, die die Bereiche künstliche Intelligenz (KI) und maschinelles Lernen (ML) erheblich vorangebracht hat, insbesondere bei der Verarbeitung natürlicher Sprache (NLP) und zunehmend auch beim Computer Vision (CV). Sie wurden in der einflussreichen Arbeit"Attention Is All You Need" vorgestellt und verarbeiten sequentielle Daten wie Texte oder Zeitreihen mithilfe eines Mechanismus, der sich selbst Aufmerksamkeit nennt. Dadurch kann das Modell die Wichtigkeit verschiedener Teile des Inputs dynamisch abwägen und so die wichtigsten Einschränkungen älterer Architekturen wie rekurrenter neuronaler Netze (RNNs) überwinden.

Wie Transformatoren funktionieren

Die wichtigste Innovation von Transformers ist der Mechanismus der Selbstbeobachtung. Im Gegensatz zu RNNs, die Eingaben sequentiell (ein Element nach dem anderen) verarbeiten und bei langen Sequenzen aufgrund von Problemen wie verschwindenden Gradienten Probleme haben können, können Transformers alle Teile der Eingabesequenz gleichzeitig berücksichtigen. Diese parallele Verarbeitung beschleunigt das Training auf moderner Hardware wie GPUs von Unternehmen wie NVIDIA.

Während sich typische Convolutional Neural Networks (CNNs) auf lokale Merkmale durch Filter mit fester Größe konzentrieren, die eine Faltung durchführen, ermöglicht der Aufmerksamkeitsmechanismus Transformers, langfristige Abhängigkeiten und kontextuelle Beziehungen über die gesamte Eingabe zu erfassen. Diese Fähigkeit, globale Zusammenhänge zu verstehen, ist entscheidend für Aufgaben, bei denen es um komplexe Beziehungen geht, sei es in Texten oder Bildfeldern, die in Vision Transformers (ViTs) verwendet werden.

Relevanz und Auswirkungen

Transformatoren sind zur Grundlage für viele moderne KI-Modelle geworden, da sie den Kontext effektiv erfassen und lange Sequenzen verarbeiten können. Ihre Parallelisierbarkeit hat das Training umfangreicher Modelle mit Milliarden von Parametern ermöglicht, wie z. B. GPT-3 und GPT-4, die von OpenAI entwickelt wurden und zu Durchbrüchen in der generativen KI geführt haben. Diese Skalierbarkeit und Leistung haben Transformers zu einem zentralen Faktor für den Fortschritt bei verschiedenen KI-Aufgaben gemacht und Innovationen in Forschung und Industrie vorangetrieben. Viele beliebte Transformer-Modelle, wie BERT, sind über Plattformen wie Hugging Face verfügbar und werden mit Frameworks wie PyTorch und TensorFlowund oft in MLOps-Plattformen wie Ultralytics HUB integriert.

Anwendungen in KI und ML

Transformatoren sind sehr vielseitig und ermöglichen zahlreiche AI-Anwendungen:

Transformer vs. andere Architekturen

Es ist hilfreich, Transformers von anderen gängigen neuronalen Netzwerkarchitekturen zu unterscheiden:

  • Transformatoren vs. RNNs: RNNs verarbeiten Daten sequentiell und sind daher für Zeitreihen geeignet, neigen aber dazu, frühere Informationen in langen Sequenzen zu vergessen(Problem des verschwindenden Gradienten). Transformatoren verarbeiten Sequenzen parallel und nutzen dabei die Selbstaufmerksamkeit. Sie erfassen weitreichende Abhängigkeiten effektiver und trainieren schneller auf paralleler Hardware(GPUs).
  • Transformatoren vs. CNNs: CNNs zeichnen sich dadurch aus, dass sie mithilfe von Faltungsfiltern lokale Muster in gitterartigen Daten (z. B. Pixel in einem Bild) erkennen. Sie sind sehr effizient für viele Bildverarbeitungsaufgaben, wie sie von Ultralytics YOLO Modelle. Transformatoren, insbesondere ViTs, unterteilen Bilder in Flecken und modellieren die Beziehungen zwischen ihnen mit Hilfe von Selbstbeobachtung, was den globalen Kontext potenziell besser erfasst, aber oft mehr Daten und Rechenressourcen erfordert, vor allem während des Modelltrainings. Hybride Architekturen, die CNN-Funktionen mit Transformer-Schichten kombinieren, zielen darauf ab, die Stärken beider zu nutzen, wie bei einigen RT-DETR zu sehen ist. Die Wahl hängt oft von der spezifischen Aufgabe, der Größe des Datensatzes und den verfügbaren Rechenressourcen ab.
Alles lesen