Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Reformer

Entdecken Sie das Reformer-Modell: eine bahnbrechende Transformer-Architektur, die für lange Sequenzen mit LSH-Attention und reversiblen Layern optimiert ist.

Reformer ist eine effiziente Art von Transformer-Modell, das von Forschern bei Google AI entwickelt wurde. Es wurde entwickelt, um extrem lange Datensequenzen zu verarbeiten, was aufgrund des hohen Speicherbedarfs und der hohen Rechenanforderungen eine erhebliche Herausforderung für Standard-Transformer-Architekturen darstellt. Durch die Einführung neuartiger Techniken kann Reformer Kontextlängen von bis zu einer Million Wörtern auf einem einzigen Beschleuniger verarbeiten, wodurch es möglich ist, mit ganzen Büchern oder hochauflösenden Bildern zu arbeiten. Diese Effizienz ist von zentraler Bedeutung für die Weiterentwicklung der Fähigkeiten von Large Language Models (LLMs) und anderen sequenzbasierten Aufgaben in der künstlichen Intelligenz (KI).

Wie Reformer Effizienz erreicht

Die Effizienz von Reformer beruht auf zwei Hauptinnovationen, die die Engpässe im Standard-Aufmerksamkeitsmechanismus und der Speicherzuweisung beheben:

  • Locality-Sensitive Hashing (LSH) Attention: Traditionelle Transformer berechnen einen Attention-Score für jedes Wortpaar in einer Sequenz, was mit zunehmender Sequenzlänge rechenintensiv wird. Reformer ersetzt diese vollständige Attention durch eine Approximation mittels Locality-Sensitive Hashing (LSH). Diese Technik gruppiert ähnliche Wörter in Buckets und berechnet die Attention nur innerhalb dieser kleineren Gruppen, wodurch die Rechenlast drastisch reduziert wird. Sie basiert auf dem Prinzip, dass Wörter, die in ihrer Bedeutung (oder im Vektorraum) nahe beieinander liegen, wahrscheinlich in denselben Bucket gehasht werden.
  • Reversible Residual Layers: Um Speicher zu sparen, speichern Standard-neuronale Netze Aktivierungen aus jeder Schicht, die während der Backpropagation verwendet werden. Dies verbraucht eine große Menge an Speicher, insbesondere bei tiefen Modellen. Reformer verwendet reversible Schichten, die es ermöglichen, die Aktivierungen jeder Schicht aus den Aktivierungen der nachfolgenden Schicht während des Trainings neu zu berechnen. Dadurch entfällt die Notwendigkeit, die Aktivierungen im Speicher zu speichern, was den Speicherbedarf erheblich reduziert und das Training viel größerer Modelle ermöglicht. Dieses Konzept wird im Original-Reformer-Forschungsbericht detailliert beschrieben.

Anwendungen

Die Fähigkeit von Reformer, lange Sequenzen zu verarbeiten, macht ihn für verschiedene Aufgaben im maschinellen Lernen (ML) geeignet, insbesondere innerhalb der natürlichen Sprachverarbeitung (NLP) und darüber hinaus:

  • Analyse langer Dokumente: Zusammenfassen oder Beantworten von Fragen zu ganzen Büchern, langen Forschungsartikeln oder juristischen Dokumenten, bei denen sich der Kontext über Tausende oder Millionen von Wörtern erstreckt. Beispielsweise könnte ein Reformer-Modell verwendet werden, um eine prägnante Textzusammenfassung eines mehrkapiteligen technischen Berichts zu erstellen.
  • Genomik: Verarbeitung langer DNA- oder Proteinsequenzen zur Analyse und Mustererkennung. Genomische Daten können aus Milliarden von Basenpaaren bestehen, was Reformer zu einer idealen Architektur für die Identifizierung von Mustern oder Mutationen macht.
  • Langformat-Medienverarbeitung: Analysieren langer Audiodateien für Spracherkennung, Musikgenerierung basierend auf erweiterten Kompositionen oder Videoanalyse über lange Zeiträume. Ein Beispiel ist die effiziente Transkription stundenlanger Besprechungen oder Vorlesungen.
  • Bilderzeugung: Einige Ansätze behandeln Bilder als Pixelsequenzen, insbesondere für hochauflösende Bilder. Reformer kann potenziell diese sehr langen Sequenzen für Aufgaben wie die Text-zu-Bild-Generierung verarbeiten.
  • Erweiterte Zeitreihenanalyse: Modellierung sehr langer Zeitreihendaten, wie z. B. die Vorhersage von Aktienmarkttrends über Jahrzehnte oder die Analyse langfristiger Klimadaten.

Während sich Modelle wie Ultralytics YOLO auf die effiziente Objekterkennung in Bildern konzentrieren, oft unter Verwendung von Convolutional Neural Networks (CNNs) oder hybriden Architekturen wie RT-DETR, die mit Frameworks wie PyTorch erstellt wurden, sind die in Reformer untersuchten Prinzipien der Rechen- und Speichereffizienz im gesamten Bereich des Deep Learning relevant. Das Verständnis solcher Fortschritte trägt dazu bei, Innovationen hin zu leistungsfähigeren und zugänglicheren KI-Modellen voranzutreiben. Plattformen wie Ultralytics HUB zielen darauf ab, die KI-Entwicklung und den Modell-Deployment zu vereinfachen.

Vergleich mit anderen Modellen für lange Sequenzen

Reformer ist eines von mehreren Modellen, die entwickelt wurden, um die Einschränkungen von Standard-Transformern zu überwinden. Es ist wichtig, ihn von anderen zu unterscheiden:

  • Longformer: Wie Reformer ist Longformer für lange Sequenzen konzipiert. Es verwendet jedoch ein anderes Aufmerksamkeitsmuster, das ein gleitendes Fenster (lokale Aufmerksamkeit) mit einigen globalen Aufmerksamkeits-Token kombiniert. Dies macht es sehr effektiv für Dokumente, bei denen der lokale Kontext am wichtigsten ist, aber es ist weniger flexibel als der Hashing-basierte Ansatz von Reformer, um entfernte Beziehungen zu erfassen.
  • Transformer-XL: Dieses Modell führt Rekurrenz in die Transformer-Architektur ein, wodurch Informationen von einem Textsegment zum nächsten fließen können. Transformer-XL ist besonders effektiv für autoregressive Aufgaben wie die Sprachmodellierung, ist aber nicht dafür ausgelegt, eine einzelne, extrem lange Eingabe in einem Durchgang wie Reformer oder Longformer zu verarbeiten.
  • Standard Transformer: Das ursprüngliche Transformer-Modell verwendet vollständige Selbstaufmerksamkeit, was es sehr effektiv macht, aber aufgrund seiner quadratischen Komplexität für Sequenzen, die länger als ein paar tausend Token sind, unpraktisch. Der Hauptbeitrag von Reformer besteht darin, Transformer-ähnliche Leistung für viel längere Eingaben zu ermöglichen. Weitere Modellvergleiche finden Sie in unserer Dokumentation.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert