Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

PagedAttention

Lerne, wie PagedAttention das LLM-Speichermanagement und die Effizienz des KV-Cache optimiert. Erkunde dessen Auswirkungen auf den Durchsatz und wie es mit der Performance von Ultralytics YOLO26 verglichen wird.

PagedAttention ist ein hocheffizienter Speicherverwaltungsalgorithmus, der entwickelt wurde, um die Inferenzgeschwindigkeit und den Durchsatz von Large Language Models (LLMs) zu optimieren. Inspiriert von den Konzepten des virtuellen Speichers und des Pagings in herkömmlichen Betriebssystemen, adressiert diese Technik den massiven Speicherverbrauch, der mit dem Key-Value-Cache (oft als KV cache bezeichnet) während der Textgenerierung verbunden ist. Indem die für den Cache erforderlichen kontinuierlichen Speicherblöcke in kleinere, nicht zusammenhängende "Pages" aufgeteilt werden, eliminiert PagedAttention effektiv sowohl interne als auch externe Speicherfragmentierung. Dies ermöglicht es KI-Servern, deutlich mehr Anfragen gleichzeitig zu verarbeiten und die GPU-Auslastung zu maximieren.

Link to this sectionPagedAttention vs. Flash Attention#

Während beide Techniken die Leistung neuronaler Netze optimieren, zielen sie auf unterschiedliche Engpässe ab. Flash Attention ist eine Optimierung auf Berechnungsebene, die den Attention-Mechanismus selbst beschleunigt, indem langsame Speicherlese- und Schreibvorgänge innerhalb der GPU-Hierarchie minimiert werden. Im Gegensatz dazu ist PagedAttention eine Speicherzuweisungsstrategie. Sie konzentriert sich ausschließlich darauf, wie der Speicher für das Kontextfenster strukturiert und gespeichert wird, was eine dynamische Skalierung ermöglicht, ohne große, verschwenderische Speicherblöcke vorab zuzuweisen.

Link to this sectionPraxisanwendungen#

Die durch PagedAttention erschlossene Speichereffizienz hat die Art und Weise verändert, wie groß angelegte generative Modelle in der Produktion eingesetzt werden.

  1. High-Throughput API Serving: Produktionssysteme, die Modelle wie GPT-4 bedienen, nutzen PagedAttention über Frameworks wie vLLM. Durch das Teilen von Speicherblöcken über verschiedene Benutzeranfragen hinweg können Anbieter bis zu viermal so viele Benutzer auf derselben Hardware bedienen, was die Kosten für den Betrieb cloudbasierter KI-Dienste drastisch senkt.

  2. Complex Decoding Strategies: Wenn ein KI-Modell mehrere potenzielle Antworten gleichzeitig generiert (wie bei der Strahlensuche oder parallelen Abtastung), ermöglicht PagedAttention diesen parallelen Sequenzen, sicher dieselben grundlegenden Speicherseiten zu teilen. Dies verhindert, dass das System redundanten Speicher dupliziert, wodurch komplexe logische Aufgaben erheblich schneller werden.

Link to this sectionSpeichereffizienz im Computer Vision#

Während PagedAttention hauptsächlich in der natürlichen Sprachverarbeitung eingesetzt wird, ist das zugrunde liegende Prinzip der strengen Speicheroptimierung ebenso wichtig im Computer Vision (CV). Beim Bereitstellen von Modellen auf hardwarebeschränkten Edge-Geräten ist die Vermeidung von Speicherblähungen unerlässlich. Ultralytics YOLO26 erreicht nativ Echtzeit-Inferenz-Effizienz und umgeht die Notwendigkeit einer komplexen Cache-Verwaltung durch den Einsatz einer End-to-End-, NMS-freien Architektur.

Für Entwickler, die die Speicher- und Exportanforderungen von Objekterkennungs-Pipelines nahtlos handhaben möchten, bietet die Ultralytics Platform automatisierte Bereitstellungstools, die Modelle für eine optimale Hardwareausführung paketieren.

Link to this sectionCode-Beispiel#

PagedAttention arbeitet unter der Oberfläche in Serving-Frameworks und ersetzt Standard-Attention-Funktionen durch optimierte Cuda-Kernels. Nachfolgend ist ein konzeptionelles Beispiel, das zeigt, wie man Standard-Attention in PyTorch definieren könnte, was Systeme wie vLLM während des Modelleinsatzes automatisch abfangen und mittels Paging optimieren.

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

Durch die Nutzung fortschrittlicher Speicherzuweisungsstrategien verschiebt die KI-Branche weiterhin die Grenzen des Machbaren und stellt sicher, dass massive grundlegende Modelle weltweit effizient skaliert und genutzt werden können.

Explore solutions

Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr
Real-time AI that works with your team

KI in der Robotik

Stärke intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik treibt autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung voran.

Erfahre mehr
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision AI ermöglicht Paketkontrolle, Sortierung, Fahrzeugverfolgung und Echtzeit-Überwachung der Lagersicherheit.

Erfahre mehr
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO-Modellen. Vision AI fördert Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Erfahre mehr
Real-time AI that works with your team

KI im Gesundheitswesen

Baue Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision AI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Erfahre mehr
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO-Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien voran.

Erfahre mehr
Real-time AI that works with your operation

KI in der Automobilbranche

Nutze Computer Vision in der Automobilindustrie mit Ultralytics YOLO Modellen. Vision AI steigert die Verkehrssicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Erfahre mehr
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Optimiere die Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Erfahre mehr

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens