Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Longformer

Erkunde die Longformer-Architektur, um lange Datensequenzen effizient zu verarbeiten. Erfahre, wie Sparse Attention Speicherbegrenzungen für NLP und Computer Vision überwindet.

Der Longformer ist eine spezielle Art von Deep Learning-Architektur, die dazu entwickelt wurde, lange Datensequenzen effizient zu verarbeiten und die Einschränkungen traditioneller Modelle zu überwinden. Ursprünglich eingeführt, um die Limitierungen herkömmlicher Transformers zu adressieren, die aufgrund von Speicherbeschränkungen normalerweise mit Sequenzen von mehr als 512 Tokens zu kämpfen haben, verwendet der Longformer einen modifizierten Attention Mechanism. Durch die Reduzierung der Rechenkomplexität von quadratisch auf linear ermöglicht diese Architektur es KI-Systemen, ganze Dokumente, lange Transkripte oder komplexe genetische Sequenzen in einem einzigen Durchlauf zu analysieren, ohne den Input zu kürzen.

Link to this sectionDas Problem des Attention-Flaschenhalses#

Um die Bedeutung des Longformers zu verstehen, ist es wichtig, sich die Limitierungen von Vorgängern wie BERT und frühen GPT-3-Modellen anzusehen. Standard-Transformer nutzen eine "Self-Attention"-Operation, bei der jedes Token (Wort oder Wortteil) auf jedes andere Token in der Sequenz achtet. Dies erzeugt einen quadratischen Rechenaufwand; eine Verdopplung der Sequenzlänge vervierfacht den auf der GPU benötigten Speicher. Folglich setzen die meisten Standardmodelle eine strikte Grenze für die Eingabegröße, was Datenwissenschaftler oft dazu zwingt, Dokumente in kleinere, unzusammenhängende Segmente zu unterteilen, was zu einem Verlust an Kontext führt.

Der Longformer löst dies durch die Einführung von Sparse Attention. Anstatt einer vollständigen Verbindung aller Tokens untereinander nutzt er eine Kombination aus fensterbasierter lokaler Attention und globaler Attention:

  • Sliding Window Attention: Jedes Token achtet nur auf seine unmittelbaren Nachbarn. Dies erfasst den lokalen Kontext und die syntaktische Struktur, ähnlich wie ein Convolutional Neural Network (CNN) Bilder verarbeitet.
  • Dilated Sliding Window: Um das Receptive Field zu vergrößern, ohne die Berechnungen zu erhöhen, kann das Fenster Lücken enthalten, wodurch das Modell im Text "weiter" schauen kann.
  • Global Attention: Bestimmte vorausgewählte Tokens (wie das Klassifizierungs-Token [CLS]) achten auf alle anderen Tokens in der Sequenz, und alle Tokens achten auf sie. Dies stellt sicher, dass das Modell für Aufgaben wie Text Summarization ein übergeordnetes Verständnis des gesamten Inputs behält.

Link to this sectionPraxisanwendungen#

Die Fähigkeit, tausende von Tokens gleichzeitig zu verarbeiten, eröffnet neue Möglichkeiten für Natural Language Processing (NLP) und darüber hinaus.

Link to this section1. Analyse von juristischen und medizinischen Dokumenten#

In Branchen wie Jura und Gesundheitswesen sind Dokumente selten kurz. Ein Rechtsvertrag oder die medizinische Historie eines Patienten kann dutzende Seiten umfassen. Traditionelle Large Language Models (LLMs) würden erfordern, dass diese Dokumente fragmentiert werden, wodurch möglicherweise entscheidende Abhängigkeiten zwischen einer Klausel auf Seite 1 und einer Definition auf Seite 30 übersehen werden. Der Longformer ermöglicht Named Entity Recognition (NER) und Klassifizierung über das gesamte Dokument hinweg, wodurch sichergestellt wird, dass der globale Kontext die Interpretation spezifischer Begriffe beeinflusst.

Link to this section2. Langform-Frage-Antwort-Systeme (QA)#

Standard-Systeme für Question Answering haben oft Schwierigkeiten, wenn die Antwort auf eine Frage Informationen erfordert, die über einen langen Artikel verteilt sind. Indem der vollständige Text im Speicher gehalten wird, können Longformer-basierte Modelle Multi-Hop-Schlussfolgerungen durchführen und Fakten aus verschiedenen Abschnitten verknüpfen, um eine umfassende Antwort zu generieren. Dies ist entscheidend für automatisierte technische Support-Systeme und Werkzeuge für die akademische Forschung.

Link to this sectionUnterscheidung der wichtigsten Begriffe#

  • Longformer vs. Transformer: Der Standard-Transformer nutzt volle $N^2$-Attention, was ihn präzise, aber bei langen Eingaben rechenintensiv macht. Der Longformer nutzt sparse $N$-Attention und tauscht einen vernachlässigbaren Teil der theoretischen Kapazität gegen massive Effizienzgewinne ein, was Eingaben von 4.096 Tokens oder mehr ermöglicht.
  • Longformer vs. Transformer-XL: Während beide mit langen Sequenzen umgehen, verlässt sich Transformer-XL auf einen Rekursionsmechanismus (Caching früherer Zustände), um sich an frühere Segmente zu erinnern. Der Longformer verarbeitet die lange Sequenz nativ in einem Durchgang, was das parallele Training auf Plattformen wie der Ultralytics Platform vereinfacht.
  • Longformer vs. BigBird: Dies sind sehr ähnliche Architekturen, die etwa zur gleichen Zeit entwickelt wurden. Beide nutzen sparse Attention-Mechanismen, um eine lineare Skalierung zu erreichen. BigBird führt zusätzlich zu Sliding Windows eine spezifische zufällige Attention-Komponente ein.

Link to this sectionImplementierungskonzepte#

Obwohl der Longformer eine Architektur und keine spezifische Funktion ist, ist das Verständnis darüber, wie Daten für Long-Context-Modelle aufbereitet werden, entscheidend. In modernen Frameworks wie PyTorch beinhaltet dies oft das Verwalten von Embeddings, die Standardgrenzen überschreiten.

Das folgende Beispiel demonstriert die Erstellung eines Mock-Input-Tensors für ein Long-Context-Szenario und kontrastiert ihn mit der typischen Größe, die bei Standard-Detektionsmodellen wie YOLO26 verwendet wird.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Link to this sectionRelevanz für Computer Vision#

Obwohl ursprünglich für Text entwickelt, haben die Prinzipien hinter dem Longformer auch die Computer Vision beeinflusst. Das Konzept, die Attention auf eine lokale Umgebung zu begrenzen, ist analog zu den lokalisierten Operationen bei visuellen Aufgaben. Vision Transformer (ViT) stehen vor ähnlichen Skalierungsproblemen bei hochauflösenden Bildern, da die Anzahl der Pixel (oder Patches) enorm sein kann. Techniken, die aus der Sparse Attention des Longformers abgeleitet wurden, werden verwendet, um die Effizienz von Image Classification und Object Detection zu verbessern und Modellen wie YOLO26 zu helfen, bei der Verarbeitung detaillierter visueller Daten hohe Geschwindigkeiten beizubehalten.

Für weiterführende Lektüre zu den architektonischen Spezifikationen bietet das originale Longformer-Paper von AllenAI tiefgehende Benchmarks und theoretische Rechtfertigungen. Zudem profitiert das effiziente Training solch großer Modelle oft von Techniken wie Mixed Precision und fortschrittlichen Optimization Algorithms.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens