遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

PagedAttention

学习 PagedAttention 如何优化 LLM 内存管理和 KV 缓存效率。探索其对吞吐量的影响,并将其与 Ultralytics YOLO26 的性能进行比较。

PagedAttention 是一种高效的内存管理算法,旨在优化 大语言模型 (LLM) 的推理速度和吞吐量。受传统操作系统中虚拟内存和分页概念的启发,该技术解决了文本生成过程中与键值缓存(通常称为 KV cache)相关的海量内存消耗问题。通过将缓存所需的连续内存块分解为更小的、非连续的“页”,PagedAttention 有效消除了内部和外部内存碎片。这使得 AI 服务器能够同时批量处理更多的请求,从而最大限度地提高 GPU 利用率。

Link to this sectionPagedAttention 与 Flash Attention#

虽然这两种技术都能优化神经网络的性能,但它们针对的瓶颈各不相同。Flash Attention 是一种计算层面的优化,通过最大限度地减少 GPU 层级中缓慢的内存读写操作来加速 注意力机制 本身。相比之下,PagedAttention 是一种内存分配策略。它纯粹专注于 上下文窗口 的内存结构和存储方式,从而在无需预分配大量浪费内存块的情况下实现动态扩展。

Link to this section实际应用#

PagedAttention 带来的内存效率提升已经彻底改变了大规模生成模型在生产环境中的部署方式。

  1. 高吞吐量 API 服务:服务于类似 GPT-4 模型的生产系统通过 vLLM 等框架利用 PagedAttention。通过在不同用户请求间共享内存块,服务提供商可以在相同的硬件上多承载四倍的用户量,从而大幅降低运行云端 AI 服务的成本。

  2. 复杂的解码策略:当 AI 模型同时生成多个潜在响应时(例如在集束搜索或并行采样中),PagedAttention 允许这些并行序列安全地共享相同的基础内存页。这防止了系统重复存储冗余内存,使得复杂的推理任务速度显著加快。

Link to this section计算机视觉中的内存效率#

尽管 PagedAttention 主要用于自然语言处理,但严格内存优化的底层原则在 计算机视觉 (CV) 中同样至关重要。在将模型部署到硬件受限的边缘设备时,避免内存膨胀必不可少。Ultralytics YOLO26 原生实现了 实时推理 的高效性,通过采用端到端、无 NMS 的架构,无需进行繁重的缓存管理。

对于寻求无缝处理 目标检测 流水线内存和导出需求的开发者,Ultralytics Platform 提供了自动化部署工具,可对模型进行打包以实现最佳硬件执行效果。

Link to this section代码示例#

PagedAttention 在服务框架底层运行,用优化的 Cuda 内核替换标准的注意力函数。以下是一个概念示例,展示了如何在 PyTorch 中定义标准注意力机制,而 vLLM 等系统会在 模型部署 期间自动拦截并利用分页对其进行优化。

import torch
import torch.nn.functional as F

# Simulated Key, Query, and Value tensors for a standard attention block
batch_size, num_heads, sequence_length, head_dim = 1, 8, 1024, 64
query = torch.randn(batch_size, num_heads, sequence_length, head_dim)
key = torch.randn(batch_size, num_heads, sequence_length, head_dim)
value = torch.randn(batch_size, num_heads, sequence_length, head_dim)

# Standard attention computation (often replaced by PagedAttention kernels in production LLM servers)
attention_output = F.scaled_dot_product_attention(query, key, value)

print(f"Computed attention shape: {attention_output.shape}")

通过利用先进的内存分配策略,AI 行业不断突破可能性的界限,确保大规模基础模型能够在全球范围内高效扩展并被访问。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅