Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Flash Attention

Erforsche, wie Flash Attention den Speicher optimiert und Transformer-Modelle beschleunigt. Lerne, wie es Computer Vision verbessert und warum Ultralytics YOLO26 die beste Wahl ist.

Flash Attention ist ein hochoptimierter Algorithmus, der dazu entwickelt wurde, das Training und die Inferenz von Transformer-Modellen durch ein effizienteres Speichermanagement zu beschleunigen. Im modernen Deep Learning (DL) ist bei großen Modellen das primäre Nadelöhr oft nicht die Rechengeschwindigkeit des Prozessors, sondern die Zeit, die für den Datentransfer zwischen dem Speicher und den Recheneinheiten benötigt wird. Flash Attention löst dieses "Memory Wall"-Problem, indem es die Art und Weise, wie Attention-Mechanismen Daten verarbeiten, neu organisiert, was zu einer schnelleren Leistung und geringerem Speicherverbrauch führt, ohne dabei die Genauigkeit zu beeinträchtigen.

Link to this sectionWie Flash Attention funktioniert#

Um Flash Attention zu verstehen, hilft ein Blick auf die Architektur einer GPU (Graphics Processing Unit). Eine GPU verfügt über einen High Bandwidth Memory (HBM) mit hoher Kapazität, aber langsamer Geschwindigkeit, sowie einen On-Chip-SRAM mit geringer Kapazität, der jedoch unglaublich schnell ist. Standard-Attention-Implementierungen lesen und schreiben große Matrizen wiederholt in den langsamen HBM, was zu einem Rückstau führt.

Flash Attention verwendet eine Technik namens "Tiling", um die große Attention-Matrix in kleinere Blöcke zu zerlegen, die vollständig in den schnellen SRAM passen. Indem diese Blöcke im schnellen Speicher gehalten werden und dort mehr Berechnungen durchgeführt werden, bevor das Ergebnis zurückgeschrieben wird, reduziert der Algorithmus die Anzahl der Lese-/Schreibvorgänge auf den HBM erheblich. Diese Innovation, die von Forschern der Stanford University eingeführt wurde, macht den Prozess "IO-aware", was bedeutet, dass er die Kosten für Datenbewegungen explizit berücksichtigt. Du kannst die technischen Details im Original-Forschungspapier nachlesen.

Link to this sectionAbgrenzung von verwandten Begriffen#

Es ist wichtig, Flash Attention von ähnlichen Konzepten im Glossar für Künstliche Intelligenz (KI) zu unterscheiden:

  • Standard Attention: Die traditionelle Implementierung, die die vollständige Attention-Matrix berechnet. Sie ist mathematisch identisch mit Flash Attention im Ergebnis, aber oft langsamer und speicherintensiver, da sie die Speicher-IO nicht optimiert.
  • Flash Attention: Eine exakte Optimierung der Standard-Attention. Sie approximiert nicht; sie liefert exakt dieselben numerischen Ergebnisse, nur deutlich schneller.
  • Sparse Attention: Eine Approximationstechnik, die bestimmte Verbindungen ignoriert, um Rechenleistung zu sparen. Im Gegensatz zu Flash Attention opfern Sparse-Attention-Methoden etwas Präzision für Geschwindigkeit.

Link to this sectionRelevanz in der Computer Vision und YOLO#

Obwohl Flash Attention ursprünglich für Natural Language Processing (NLP) entwickelt wurde, um lange Textsequenzen zu verarbeiten, ist es in der Computer Vision (CV) mittlerweile entscheidend. Hochauflösende Bilder erzeugen bei der Verarbeitung durch Vision Transformers (ViT) massive Datenmengen.

Diese Technologie beeinflusst die Entwicklung von Objektdetektoren. Zum Beispiel haben einige experimentelle Modelle wie das community-gesteuerte YOLO12 Attention-Layer eingeführt, die diese Prinzipien nutzen. Rein Attention-basierte Architekturen können jedoch unter Trainingsinstabilität und langsamen CPU-Geschwindigkeiten leiden. Für die meisten professionellen Anwendungen ist Ultralytics YOLO26 der empfohlene Standard. YOLO26 nutzt eine hochoptimierte Architektur, die Geschwindigkeit und Genauigkeit für End-to-End Objekterkennung und Bildsegmentierung ausbalanciert und den Overhead vermeidet, der oft mit schweren Attention-Layern auf Edge-Geräten verbunden ist.

Link to this sectionPraxisanwendungen#

Die Effizienzgewinne durch Flash Attention ermöglichen Anwendungen, die zuvor zu teuer oder zu langsam für die Ausführung waren.

  1. Generative KI mit langem Kontext: In der Welt der Large Language Models (LLMs) wie GPT-4 erlaubt Flash Attention dem Modell, riesige Informationsmengen zu "behalten". Dies ermöglicht ein massives Context Window, wodurch Benutzer ganze Bücher oder juristische Codebasen zur Textzusammenfassung hochladen können, ohne dass das Modell aufgrund von Speicherlimits abstürzt.

  2. Hochauflösende medizinische Diagnostik: In der medizinischen Bildanalyse kommt es auf Details an. Pathologen analysieren Gigapixel-Scans von Gewebeproben. Flash Attention erlaubt es Modellen, diese massiven Bilder in ihrer nativen Auflösung zu verarbeiten und kleinste Anomalien wie Gehirntumore im Frühstadium zu identifizieren, ohne das Bild herunterskalieren zu müssen und dabei wichtige Daten zu verlieren.

Link to this sectionCode-Beispiel#

Während Flash Attention oft eine interne Optimierung innerhalb von Bibliotheken wie PyTorch ist, kannst du Attention-basierte Modelle mit Ultralytics problemlos nutzen. Das folgende Snippet zeigt, wie du ein RT-DETR-Modell lädst, das Attention-Mechanismen verwendet, um eine Inferenz auf einem Bild durchzuführen.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes transformer attention
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

Mit Tools wie der Ultralytics Platform können Entwickler diese hochentwickelten Modelle trainieren und bereitstellen, ohne komplexe GPU-Kernel manuell implementieren zu müssen. Die Plattform kümmert sich um die Infrastruktur, sodass sich Teams auf die Kuration hochwertiger Datensätze und die Interpretation der Ergebnisse konzentrieren können.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.
Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.
Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.
Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.
Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.
Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.
Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.
Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens